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本 书 是 介绍 自然 语言 处 理 (NLP ) 和 深度 学 习 的 实战 书 。NLP 已 成 为 深度 学 习 的 核心 应 用 领 
域 ， 而 深度 学 习 是 NLP 研究 和 应 用 中 的 必要 工具 。 本 书 分 为 3 部 分 : 第 一 部 分 介绍 NLP 基础 ， 
包括 分 词 、TF-IDF 向 量化 以 及 从 词 频 向 量 到 语义 向 量 的 转换 ;第 二 部 分 讲述 深度 学 习 ， 包 含 神 
经 网 络 、 词 向 量 、 卷 积 神经 网 络 (CNN )、 循 环 神经 网 络 (RNN )、 长 短期 记忆 (LSTM ) 网 络 、 
序列 到 序列 建 模 和 注意 力 机 制 等 基本 的 深度 学 习 模型 和 方法 ; 第 三 部 分 介绍 实战 方面 的 内 容 , 包 
括 信息 提取 、 问 答 系 统 、 人 机 对 话 等 真实 世界 系统 的 模型 构建 、 性 能 挑战 以 及 应 对 方法 。 

本 书面 向 中 高 级 Python 开发 人 员 ， 兼 具 基 础 理论 与 编程 实战 ， 是 现代 NLP 领域 从 业者 的 实 
用 参考 书 。 
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史 亮 “小米 NLP 高 级 软件 工程 师 ， 本 科 毕 业 于 武汉 大 学 ， 后 保送 中 科 院 计算 所 硕 博 连 读 ， 
获得 博士 学 位 。 目 前 主要 负责 小 米 MiNLP 平台 的 研发 工作 。 

鲁 又 ”小米 NLP 高 级 软件 工程 师 ， 本 科 、 硕 士 毕 业 于 华中 科技 大 学 ， 博 士 毕业 于 中 科 院 计 
算 所 。 目 前 主要 从 事 大 规模 文本 分 类 、 内 容 过 滤 、 人 机 对 话 等 方向 的 研发 工作 。 

唐 可 欣 ”小米 NLP 软件 工程 师 ， 本 科 毕 业 于 西安 电子 科技 大 学 ,硕士 毕业 于 法 国 巴 黎 高 科 
电信 和 学院 。 主 要 从 事 语 言 模型 、 意 图 分 析 、 情 感 分 析 等 方向 的 研发 工作 。 

王 斌 ”小米 AI 实验 室 主任 、NLP 首席 科学 家 ， 前 中 科 院 博导 、 研 究 员 ， 中 国 科 学 院 大 学 教 
授 。 译 有 《信息 检索 导论 兴 大 数据 : 互联 网 大 规模 数据 挖掘 与 分 布 式 处 理 兴 机 器 学 习 实 战 》 等 
书籍 。 
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光阴 似 第 ,日 月 如 梭 。 从 我 2008 年 翻译 第 一 本 书 《 信 息 检索 导论 》 至 今 已 经 整整 过 去 12 年 
了 。 12 年 来 , 我 也 从 中 科 院 的 一 名 老 员工 变 成 了 工业 界 的 一 名 “ 老 ” 员 工 , 自然 语言 处 理 ( Natural 
Language Processing，NLP ) 领域 也 发 生 了 十 分 剧烈 的 变化 。NLP 学 者 们 从 早期 质疑 深度 学 习 到 
全 面 拥抱 深度 学 习 仅 仅 经 历 了 两 三 年 时 间 。 而 工业 界 则 将 这 一 举动 推进 得 更 加 彻底 : 深度 学 习 已 
经 全 面 应 用 于 工业 界 的 许多 NLP 场景 中 。 可 以 说 ， 当 前 深度 学 习 已 经 成 为 NLP 学 术 研究 和 工业 
应 用 中 不 可 或 缺 的 一 件 利 器 。 与 此 同时 ， 被 誉 为 “人 工 智能 领域 旺 冠 上 的 明珠 ”的 NLP 也 迎 来 
了 属于 自己 的 “黄金 ”时 代 ， 在 包括 人 机 对 话 、 机 器 翻译 、 自 动 写作 、 机 器 阅读 等 在 内 的 诸多 
NLP 应 用 中 都 取得 了 一 系列 令 人 欣喜 的 进步 。 

正 因为 深度 学 习 和 NLP 密 不 可 分 ， 近 年 来 有 关 “ 深 度 学 习 +NLP” 的 课程 和 书籍 也 在 不 断 涌 
现 。 本 书 就 是 其 中 的 一 本 。 和 其 他 实战 类 书籍 一 样 ， 本 书 既 有 基础 理论 也 有 编程 实战 ， 基 础 理论 
部 分 简洁 易 懂 ， 编 程 实战 部 分 可 以 直接 下 载 源 码 运行 ,这 种 搭配 特别 适合 初学 者 入 门 ， 可 以 作为 
现代 NLP 从 业者 的 第 一 本 入 门 书 。 值 得 一 提 的 是 ， 这 本 书 是 我 和 《信息 检索 导论 》 的 责任 编辑 
杨 海 玲 再 次 联手 的 成 果 ， 期 望 能 给 大 家 再 次 种 来 一 部 好 的 翻译 作品 。 

本 书 的 内 容 主要 包括 3 部 分 : 第 一 部 分 是 NLP 基础 入 门 ， 包 括 自然 语言 本 身 的 特点 、 处 理 
过 程 中 的 分 词 、TF-IDF 向 量化 以 及 从 词 频 向 量 到 语义 向 量 的 转换 ;第 二 部 分 是 深度 学 习 部 分 ， 
包含 词 向 量 、CNN、RNN、LSTM、 注 意 力 机 制 等 基本 的 深度 学 习 模 型 和 方法 ; 第 三 部 分 是 实战 
部 分 ， 既 包括 信息 提取 、 问 答 系统 、 人 机 对 话 等 系统 构建 中 的 模型 挑战 ， 也 包括 它们 遇 到 的 性 能 
挑战 ， 还 介绍 了 应 对 这 些 挑战 的 一 些 实际 做 法 。 虽 然 本 书 给 出 的 是 一 些 经 典 的 基本 模型 ， 但 是 对 
它们 的 深刻 理解 十 分 有 助 于 快速 掌握 一 些 新 模型 ( 如 Transformer 和 BERT )。 学 完 本 书 ， 再 去 掌 
握 新 的 模型 ， 有 事半功倍 的 效果 。 

由 于 个 人 工作 繁忙 , 精力 有 限 , 我 邀请 了 小 米 人 工 智能 部 AI 实验 室 NLP 团队 的 多 位 同事 合 
作 ， 他 们 都 有 十 分 丰富 的 NLP 实战 经 验 ， 期 望 这 些 经 验 有 助 于 提高 本 书 的 翻译 质量 。 其 中 ， 我 
本 人 承担 了 第 1 ~4 章 的 翻译 工作 , 鲁 吴 、 唐 可 欣 、 史 亮 分 别 承 担 了 第 5~7 章 、 第 8~10 章 、 第 
11 ~ 13 章 的 翻译 工作 ， 其 余部 分 由 大 家 共同 完成 ， 最 后 由 史 亮 博士 进行 了 统 稿 整理 。 在 翻译 过 
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2 译 者 序 


程 中 ,小 米 NLP 团队 的 部 分 成 员 、 我 在 中 科 院 和 北大 的 一 些 毕 业 或 在 读 研 究 生 也 提出 了 宝贵 的 
建议 ， 他 们 是 备 二 利 、 崔 建 伟 、 齐 保 元 、 李 丹 、 李 文 娜 、 花 新 宇 、 郭 元 凯 、 邓 雄 文 、 胡 羽 蓝 、 王 
狼 、 衣 仁 林 、 刘 坤 、 芝 团 民 、 徐 泽 宇 、 过 群 、 李 奢 、 柯 震 、 王 颖 哲 、 周 美 林 、 梁 棋 、 李 铀 寇 、 黄 
琪 、 刘 春晓 、 骆 丹 、 陈 建 均 、 马 路 、 郁 博文 、 朱 时 超 、 朱 苦 、 林 和 希 列 、 曹 江 峡 、 从 佬 、 王 栋 、 衣 
雪 丹 、 卞 姬 靖 、 何 纯 玉 、 徐 雅 开 、 王 梓 涵 、 易 传 润 、 陈 宇 鹏 、 王 飞 、 管 文 宇 、 薛 梦 镶 、 刘 陆 琛 、 
袁 表 、 唐 恒 柱 、 盛 父 伟 、 纪 鸿 旭 、 韩 佳 乘 、 李 界 达 、 刘 世 阳 、 李 向 阳 等 ， 在 此 一 并 表示 感谢 。 

由 于 我 们 水 平 有 限 , 如 有 翻译 不 当 之 处 还 请 多 多 指正 。 有 关 本 书 的 任何 意见 和 建议 都 可 以 通 
过 电子 邮件 (wbxjj2008@gmail.com ) 或 者 人 民 邮 电 出 版 社 异步 社区 网 站 进行 反馈 。 

最 后 , 感谢 雷 总 对 技术 的 高 度 重 视 , 感谢 鹤 宝 秋 博 士 的 引荐 和 指导 ,让 我 能 够 很 顺利 地 从 学 
术 界 走 到 工业 界 ， 并 且 能 有 垃 和 一 群 非常 优秀 、 非 常 低调 、 非 常 单纯 的 同事 们 共事 。 在 工业 界 ， 
我 每 天 都 能 看 到 各 种 可 能 的 NLP 和 AI 应 用 场景 ,场景 和 技术 的 无 数 可 能 组 合 让 我 这 个 NLP 老 
兵 激动 不 已 。 我 们 团队 研发 的 技术 也 越 来 越 多 地 应 用 到 公司 的 产品 中 , 为 更 多 用 户 带 来 了 更 好 的 
体验 。 我 也 希望 , 有 更 多 人 投入 到 NLP 以 及 AI 领域 中 , 一 起 用 我 们 的 科技 为 用 户 带 来 美好 生活 。 
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2020 年 3 月 3 日 于 小 米 科技 园 
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我 第 一 次 见 到 Hannes 是 在 2006 年 ， 当 时 我 们 正 开始 在 同一 个 系 攻 读 不 同 的 研究 生 学 位 。 很 
快 ， 由 于 他 将 机 器 学 习 和 电气 工程 相 结 合 ， 并 全 身心 投入 对 世界 产生 积极 影响 的 事业 ， 他 变 得 非 
常 出 名 。 在 他 的 整个 职业 生涯 中 , 这 种 全 身心 投入 的 信念 指引 着 他 接触 过 的 每 一 家 公司 和 每 一 个 
项 目 。 正 是 在 这 种 信念 的 指引 下 , 他 与 Hobson 和 Cole 建立 了 联系 ,他 们 对 能 带 来 积极 影响 的 项 
目 有 着 同样 的 热情 。 

当 我 着 手写 这 篇 文字 时 ， 正 是 机 需 学 习 (machine learning，ML ) 让 生活 变 得 更 美好 的 热情 
打动 了 我 。 我 个 人 在 机 融 学 习 研 究 方面 的 旅程 中 也 同样 受到 一 种 强烈 愿望 的 指引 ， 即 希望 对 世 
界 产 生 积极 影响 。 我 在 研究 历程 中 开发 了 多 分 辩 率 生态 数据 建 模 算法 ， 以 优化 物种 分 布 的 保护 
和 调查 目标 。 从 那 时 起 ， 我 就 下 定 决 心 继续 在 那些 可 以 通过 应 用 机 器 学 习 来 改善 生活 和 体验 的 
领域 工作 。 


能 力 越 大 ， 责 任 越 大 。 

















一 一 伏 尔 泰 ? 

















无 论 把 这 句 话 归功 于 伏 尔 泰 还 是 本 叔 扳 ( Uncle Ben ) ”， 这 人 句 话 到 今天 都 依然 适用 。 不 过 在 
这 个 时 代 ,， 我 们 或 许可 以 这 样 说 :“ 数 据 越 多 ,责任 越 大 。” 我们 信赖 那些 拥有 数据 的 公司 ,希望 
它们 将 这 些 数据 用 于 改善 我 们 的 生活 。 我 们 允许 自己 的 电子 邮件 被 这 些 公司 扫描 以 纠正 邮件 文字 
中 出 现 的 语法 错误 。 这 些 公司 研究 我 们 在 社交 媒体 上 的 日 常生 活 片段 , 将 其 用 于 向 信息 流 中 注入 
广告 。 手 机 和 家 居 能 够 对 我 们 说 的 话 做 出 反应 ， 有 时 在 不 跟 它们 说 话 的 时 候 也 会 有 响应 ,它们 其 
至 会 监控 我 们 的 新 闻 偏好 ， 以 迎合 我 们 的 兴趣 、 观 点 和 信仰 。 那 么 ,所 有 这 些 强大 科技 的 核心 是 
什么 呢 ? 

答案 是 自然 语言 处 理 ( Natural Language Processing，NLP )。 在 本 书 中 , 读者 不 仅 会 学 习 这 些 


系统 的 内 部 工作 原理 ,还 会 学 习 相 关 的 理论 和 实践 技能 ,并 创建 自己 的 算法 或 模型 。 基 本 计算 机 









































J 伏 尔 泰 ，18 世纪 法 国 著名 的 启蒙 思想 家 、 文 学 家 、 哲 学 家 。 本 概 权 ， 美 国 漫画 人 物 ， 蜂 蛛 侠 的 叔 上 朱 。 一 一 译 者 注 
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科学 概念 无 缝 地 转换 为 方法 和 实践 的 坚实 基础 。 从 一 些 久 经 考验 的 经 典 方法 ( 如 TF-IDF ) 开始 ， 
再 深入 到 NLP 相关 的 深层 神经 网 络 ， 作 者 带领 读者 对 于 自然 语言 处 理 的 核心 方法 开启 了 一 段 清 
晰 的 体验 之 旅 

语言 是 人 类 建立 共识 的 基础 。 人 们 之 间 交 流 的 不 仅 有 事实 ， 还 有 情感 。 通 过 语言 ， 人 们 获得 
了 经 验 领域 之 外 的 知识 ,并 通过 分 享 这 些 经 验 来 构建 理解 的 过 程 。 通 过 本 书 ， 大 家 将 会 深入 理解 
自然 语言 处 理 技术 的 原理 , 有 朝 一 日 可 能 创建 出 能 通过 语言 来 了 解 人 类 的 系统 。 自 然 语 言 处 理 技 
术 有 很 大 的 发 展 潜力 ,但 也 可 能 被 滥用 。 在 本 书 中 ,作者 希望 通过 分 享 这 些 知识 来 给 我 们 一 个 更 
光明 的 未 来 。 
































Arwen Griffioen 博士 
Zendesk 公司 高 级 数据 科学 家 
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人 网 而 


2013 年 前 后 ， 自 然 语言 处 理 和 聊天 机 器 人 开始 占据 我 们 的 生活 。 一 开始 ，Google 搜索 看 起 
来 更 像 是 一 个 索引 ， 需 要 一 些 技巧 才能 找到 我 们 要 找 的 东西 ,但 它 很 快 就 变 得 更 加 智能 ， 可 以 接 
受 越 来 越 多 的 自然 语言 搜索 。 然 后 智能 手机 的 文字 自动 补 全 功能 开始 变 得 先进 起 来 , 中间 按 钮 给 
出 的 通常 就 是 我 们 要 找 的 词 。 

2014 年 年 末 ，Thunder Shiviah 和 我 在 俄 勒 交州 的 一 个 黑客 项 目 (Hack Oregon ) 上 合作 ， 挖 
掘 竞 选 活动 的 自然 语言 财务 数据 。 我 们 试图 在 美国 的 政治 捐助 者 之 间 找 到 关联 。 政 客 们 似乎 在 竞 
选 财务 文件 中 含糊 其 辞 地 隐藏 了 捐助 者 的 身份 。 在 这 个 项 目 中 , 有 趣 的 不 是 我 们 能 够 使 用 简单 的 
自然 语言 处 理 技 术 来 揭示 这 些 关 联 。 最 让 我 惊讶 的 是 ，Thunder 经 常会 在 我 发 送 电子 邮件 几 秒 钟 
后 ， 以 简洁 而 恰当 的 方式 回复 我 那些 随意 的 电子 邮件 。 他 使 用 的 是 Smart Reply, 一 个 Gmail 收 
件 箱 “ 助 手 ”， 它 的 回复 速度 比 我 们 阅读 电子 邮件 的 速度 还 快 。 

于 是 我 深入 进去 ,学 习 这 些 神奇 的 “魔术 ”背后 的 技巧 。 学 得 越 多 ， 这 些 令 人 印象 深刻 的 自 
然 语 言 处 理 技巧 似乎 就 越 可 行 , 也 越 容易 理解 。 我 接手 的 每 一 个 机 器 学 习 项 目 似 乎 都 涉及 自然 语 
言 处 理 。 

也 许 是 因为 对 语言 的 热爱 , 以 及 迷恋 语言 在 人 类 智能 中 所 起 的 作用 , 我 会 花 几 个 小 时 与 我 在 
夏普 实验 室 的 信息 理论 家 老板 John Kowalski 讨论 词 是 否 具 有 “意义 ”。 我 从 导师 和 学 生 那 里 学 到 
了 越 来 越 多 的 东西 后 ， 也 逐渐 获得 了 自信 ， 我 似乎 能 够 自己 构建 一 些 新 的 、 神 奇 的 东西 。 

我 学 到 的 一 个 技巧 是 遍历 一 组 文档 , 计算 “War” 和 “Hunger” 等 词 之 后 出 现 “Game” 或 “IIIT” 
等 词 的 频率 。 如 果 在 大 量 的 文本 上 进行 这 种 处 理 , 你 就 能 从 词 、 短 语 或 句子 序列 中 很 好 地 猜 出 正 
确 词 。 这 种 经 典 的 语言 处 理 方法 对 我 来 说 很 直观 。 

教授 和 老板 们 把 这 叫 作 马 尔 可 夫 链 , 但 对 我 来 说 ,这 只 是 一 个 概率 表 , 一 个 基于 前 一 个 词 的 
每 个 词 的 计数 列表 。 教 授 们 把 这 叫 作 条 件 分 布 ， 也 就 是 在 前 一 个 词 后 面 出 现 另 一 个 词 的 概率 。Peter 
Norvig 为 Google 构建 的 拼写 校正 需 表 明 这 种 方法 可 以 很 好 地 扩展 , 并 且 只 需要 很 少 的 Python 代 






























































































































































Q@ 在 智能 手机 的 预测 文本 键盘 上 重复 点 击 中 间 按 钮 ， 了 解 Google 认为 你 接 下 来 想 说 什么 。2013 年 ， 它 作 
为 “SwiftKey game” 首 次 出 现在 Reddit 上 。 
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2 前 言 























码 "。 我 们 需要 的 只 是 大 量 的 自然 语言 文本 。 当 想到 在 维基 百科 或 古 腾 保 计划 这 样 大 规模 的 锡 
费 文本 集合 上 做 这 样 一 件 事 的 可 能 性 时 ， 我 不 禁 兴 奋起 来 。 

然后 我 听 说 了 潜在 语义 分 析 (latent semantic analysis，LSA )。 这 似乎 只 是 描述 在 大 学 里 学 过 
的 线性 代数 运算 的 一 种 奇特 的 方法 。 只 要 记录 下 所 有 一 起 出 现 的 词 ,就 可 以 使 用 线性 代数 将 这 些 
词 按照 “主题 ”分 组 。LSA 可 以 将 整个 句子 甚至 是 一 篇 很 长 的 文档 的 含义 压缩 成 一 个 向 量 。 而 且 ， 
在 搜索 引擎 中 使 用 LSA 时 ， 它 似乎 具有 一 种 不 可 思议 的 能 力 ， 那 就 是 即使 大 家 想 不 起 来 文档 中 
包含 的 词 ， 也 能 够 返回 正在 寻找 的 文档 。 优 秀 的 搜索 引擎 通常 都 能 这 样 做 ! 

然后 , gensinm 发 布 了 一 个 基于 Python 实现 的 Word2vec 词 向 量 , 能 对 单个 词 进行 语义 数学 
计算 。 事 实证 明 ， 如 果 把 文档 分 割 成 更 小 的 块 ， 这 个 神奇 的 神经 网 络 数学 就 相当 于 原来 的 LSA 
技术 。 这 让 我 大 开眼 界 ， 给 了 我 希望 ， 让 我 感觉 也 许 我 能 在 这 个 领域 有 所 贡献 。 多 年 来 ,我 一 直 
在 思考 分 层 语义 向 量 一 一 书 是 如 何 由 音节、 段落、 句子 、 短 语 、 词 、 字 符 组 成 的 。Word2vec 的 
发 明 者 Tomas Mikolov 洞察 到 ， 可 以 从 词 和 包含 10 个 词 的 短语 构成 的 两 级 层次 结构 上 找 出 文本 
的 主要 语义 。 几 十 年 来 ，NLP 的 研究 人 员 一 直 认 为 词 具 有 组 成 成 分 ， 如 “好 ”和 情感 强度 。 可 以 
对 这 些 情感 评分 、 添 加 或 删除 成 分 ， 来 组 合 多 个 词 的 含义 。 但 是 ，Mikolov 已 经 想 出 了 无 须 人 工 
创建 这 些 向 量 的 方法 ， 其 至 不 用 定义 什么 是 成 分 。 这 使 NLP 变 得 非常 有 趣 ! 

大 约 在 那个 时 候 ，Thunder 把 我 介绍 给 他 的 学 生 Cole, 后 来 有 人 把 我 介绍 给 Hannes。 于 是 我 
们 3 个 人 开始 在 NLP 领域 “分 而 治之 ”。 我 对 构建 一 个 听 起 来 很 智能 的 聊天 机 器 人 很 感 兴趣 ，Cole 
和 Hannes 的 灵感 来 自强 大 的 神经 网 络 黑匣子 。 不 入， 他们 打开 了 黑匣子 ， 向 我 描述 了 他 们 的 发 
现 。Cole 甚至 用 它 来 构建 聊天 机 器 人 ， 以 帮助 我 完成 NLP 之 旅 。 

每 次 我 们 研究 一 些 令 人 惊奇 的 新 NLP 方法 时 ， 这 些 方 法 似乎 都 是 我 能 够 理解 和 使 用 的 ， 而 
且 似 乎 每 一 种 新 技术 一 问世 就 有 一 个 Python 实现 。 我 们 需要 的 数据 和 预 训练 模型 常常 包含 在 这 
些 Python 包 中 。 周 日 下 午 ， 在 弗 洛 伊 德 的 咖啡 馆 里 ， 我 、Hannes 、Cole 和 其 他 朋友 们 一 起 集 思 
广 益 ， 或 者 玩 围棋 和 中 键 游 戏 (middle button game )。 我 们 快速 取得 了 一 些 进展 ， 开 始 为 Hack 
Oregon 的 班级 和 团队 做 讲座 。 

在 2015 年 和 2016 年 ,情况 变 得 十 分 严重 。 随 着 微软 公司 的 Tay 和 其 他 机 器 人 开始 失控 , 很 
明显 ， 自 然 语言 机 器 人 正在 影响 社会 。2016 年 ， 我 位 着 测试 一 球 机 器 人 ， 它 能 通过 收集 推 文 来 
预测 选举 。 与 此 同时 ， 有 关 Twitter 机 器 人 对 美国 总 统 大 选 影响 的 新 闻 报 道 开 始 译 出 水 面 。2015 
年 我 了 解 到 , 一 个 系统 可 以 利用 自然 语言 文本 的 算法 “判断 ”来 预测 经 济 趋势 ， 并 触发 大 额 金融 
交易 。 这 些 影响 经 济 和 改变 社会 的 算法 创建 了 一 个 放大 器 反馈 回路 。 对 这 些 算法 来 说 ,“ 适 者 生 
存 ” 法 则 似乎 更 倾向 于 产生 最 多 利润 的 算法 , 而 这 些 利润 往往 是 以 牺牲 民主 的 结构 性 基础 为 代价 
的 。 机 器 正在 影响 人 类 ， 而 我 们 人 类 正在 训练 它们 使 用 自然 语言 来 增加 它们 的 影响 力 。 显 然 ， 这 
些 机 器 是 在 善于 思考 的 人 类 的 控制 之 下 , 但 当 意识 到 这 些 人 同时 也 受到 机 器 人 的 影响 时 , 你 是 不 
































































































































































































































Q@ 详 见 标题 为 “How to Write a Spelling Corrector” 的 网 页 ， 作 者 Peter Norvig。 
@ 如 果 大 家 感激 这 些 可 免费 使 用 的 自然 语言 书籍 , 那么 也 许 也 愿意 参与 争取 延长 版 权 的 原始 “使 用 ”日 期 。 
@) 详 见 标题 为 “Why Banjo Is the Most Important Social Media Company Youve Never Heard Of” 的 网 页 。 
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前 言 3 

















是 开始 觉得 有 些 混 乱 了 ? 这 些 机 器 人 会 导致 反馈 系统 中 的 连锁 反应 而 失控 吗 ? 整个 连锁 反应 对 
人 类 的 价值 观 和 利益 是 否 有 利 ， 也 许 与 这 些 机 器 人 的 初始 条 件 有 着 很 大 的 关系 。 

然后 Manning 出 版 公司 的 Brian Sawyer 打 来 电话 , 我 立刻 就 知道 了 我 想 要 写 什 么 , 想 要 帮助 
谁 。NLP 算法 和 自然 语言 数据 聚合 的 发 展 步 伐 不 断 加 快 ，Cole、Hannes 和 我 正在 奋力 追赶 。 

政治 和 经 济 领域 的 非 结构 化 自然 语言 数据 使 NLP 成 为 竞选 或 者 财务 管理 者 工具 箱 中 的 关键 
工具 。 令 人 不 安 的 是 ， 有些 文章 由 其 他 机 器 人 撰写 ， 而 这 些 文章 体现 的 情感 驱动 着 机 器 人 写 的 这 
些 预 言 。 这 些 机 器 人 通常 不 知道 彼此 , 但 它们 实际 上 是 在 互相 交谈 ， 并 试图 操纵 对 方 ， 而 对 人 类 
和 整个 社会 的 影响 在 后 来 才能 显现 出 来 。 我 们 只 是 在 这 种 影响 下 随波逐流 而 已 。 

这 种 机 器 人 与 机 避 人 对 话 循 环 的 一 个 例子 是 金融 科技 初创 企业 Banjo 在 2015 年 的 崛起 。 通 
过 监控 Twitter,Banjo 的 NLP 机 器 人 可 以 在 路 透 社 或 美国 有 线 电 视 新 闻 网 的 第 一 位 记者 发 表 报道 
前 30 分 钟 至 1 小 时 预测 出 有 新 闻 价值 的 事件 ， 而 它 用 来 检测 这 些 事 件 的 许多 推 文 几乎 肯定 会 被 
其 他 多 个 机 器 人 收藏 和 转发 ， 目 的 是 吸引 Banjo 的 NLP 机 器 人 的 “眼球 ”。 被 机 器 人 收藏 并 被 
Banjo 监控 的 这 些 推 文 并 不 仅仅 是 根据 机 器 学 习 算法 分 析 来 进行 策划 、 推 广 或 计量 ， 其 中 许多 推 
文 完全 是 由 NLP 引擎 编写 的 。 

越 来 越 多 的 娱乐 、 广告 和 财务 报告 内 容 在 不 需要 人 动 一 根 手指 的 情况 下 就 可 以 生成 。 NLP 
机 器 人 可 以 编写 整个 电影 脚本 “。 视 频 游戏 和 虚拟 世界 经 常会 出 现 与 我 们 对 话 的 机 器 人 ， 它 们 有 
时 甚至 会 谈论 机 器 人 和 人 工 智能 本 身 。 这 种 “ 戏 中 戏 ” 将 得 到 更 多 的 关于 电影 的 元 数据 ， 然 后 现 
实 世 界 中 的 机 器 人 会 据 此 撰写 评论 以 帮助 大 家 决定 看 哪 部 电影 。 随 着 自然 语言 处 理 技术 对 自然 语 
言 风格 的 分 析 以 及 生成 对 应 风格 的 文本 ， 作 者 身份 的 判定 将 变 得 越 来 越 难 “。 

NLP 还 以 一 些 不 那么 直接 的 其 他 方式 影响 着 社会 。NLP 支持 高 效 的 信息 检索 ( 搜索 )， 对 于 
我 们 消费 的 信息 内 容 将 是 一 个 很 好 的 过 滤器 或 促进 者 。 搜 索 是 第 一 个 商业 上 成 功 的 NLP 应 用 。 
搜索 驱动 的 NLP 算法 的 发 展 越 来 越 快 ， 进 而 改进 了 搜索 技术 本 身 。 我 们 会 向 大 家 展示 Web 搜索 
背后 的 一 些 自然 语言 索引 和 预测 技术 ， 以 帮助 大 家 为 这 个 增加 集体 智慧 的 良性 技术 循环 做 出 贡 
献 。 我 们 还 会 展示 如 何 将 本 书 编 人 索引 ， 让 机 器 来 负责 记忆 术语 、 事 实 和 Python 代码 片段 ， 这 
样 大 家 就 可 以 将 大 脑 解 放出 来 进行 更 高 层次 的 思考 。 接 下 来 大 家 还 可 以 用 自己 构建 的 自然 语言 搜 
索 工具 来 影响 你 和 朋友 的 文化 特征 。 

随 着 NLP 技术 的 发 展 ， 信 息 流 和 计算 能 力也 不 断 增强 。 我 们 现在 只 需 在 搜索 栏 中 输入 几 个 
字符 ， 就 可 以 检索 出 完成 任务 所 需 的 准确 信息 。 搜 索 提 供 的 前 几 个 自动 补 全 选项 通常 非常 合适 ， 
以 至 于 让 我 们 感觉 是 有 一 个 人 在 帮助 我 们 进行 搜索 。 当 然 , 我 们 在 编写 本 书 的 过 程 中 使 用 了 各 种 
各 样 的 搜索 引擎 。 有 些 时 候 , 这 些 搜索 结果 中 也 包括 由 机 器 人 策划 或 撰写 的 社交 帖子 和 文章 ,这 
反 过 来 启发 了 后 续 页 面 中 的 许多 NLP 解释 和 应 用 程序 。 




















































































































































































































(QD Twitter 在 2014 年 的 财务 报告 显示 ， 有 多 于 8% 的 推 文 是 由 机 器 人 撰写 的 ， DARPA [ (美国 ) 国防 高 级 研 
究 计 划 局 ] 在 2015 年 举办 了 一 场 竞 赛 ， 试 图 检测 这 些 机 器 人 ， 以 减少 它们 对 美国 社会 的 影响 。 

@) Five Thirty Eight。 

@ NLP 已 经 成 功用 于 分 析 16 世纪 莎士比亚 等 作家 的 风格 。 
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4 前 言 








到 底 是 什么 推动 了 NLP 的 发 展 ? 

国 是 对 不 断 扩大 的 非 结 构 化 Web 数据 有 了 新 的 认识 吗 ? 

国 是 处 理 能 力 的 提高 跟 上 了 研究 人 员 的 思路 吗 ? 

加 是 用 人 类 语言 与 机 器 互动 的 效率 得 到 提升 了 吗 ? 可 

实际 上 以 上 这 些 都 是 ， 其 实 还 有 更 多 。 大 家 可 以 在 任何 一 个 搜索 引 擎 中 输入 这 样 一 个 问题 
“为 什么 现在 自然 语言 处 理 如 此 重要 ? “， 然 后 就 能 找到 维基 百科 上 给 出 各 种 好 理由 的 文章 ”。 

还 有 一 些 更 深层 次 的 原因 ， 其 中 一 个 原因 是 对 通用 人 工 智能 ( AGI ) 或 深层 人 工 智 能 ( Deep 
AI ) 的 加 速 追 求 。 人 类 的 智慧 可 能 只 是 体现 在 我 们 能 够 把 思想 整理 成 离散 的 概念 ,进行 存 储 ( 记 
忆 ) 和 有 效 地 分 享 。 这 使 我 们 能 够 跨越 时 间 和 空间 来 扩展 我 们 的 智力 ,将 我 们 的 大 脑 连接 起 来 形 
成 集体 智能 。 

Steven Pinker 在 《思想 本 质 》( The Stuff of Thought ) 中 提出 的 一 个 观点 是 : 我 们 实际 上 是 用 
自然 语言 思考 的 。 称 其 为 “内 心 对 话 ” 不 是 没有 原因 的 。Facebook、Google 和 Elon Musk 正 押 注 
于 这 样 一 个 事实 : 文字 将 成 为 思维 的 默认 通信 协议 。 他 们 都 投资 了 一 些 项 目 , 试图 把 思想 、 脑 电 
波 和 电信 号 转换 成 文字 。 此 外 ， 沃 尔 夫 假 说 认为 语言 会 影响 我 们 的 思维 方式 "。 自 然 语 言 无 疑 
是 文化 和 集体 意识 的 传播 媒介 。 
因此 ,如 果 我 们 想 要 在 机 右上 模仿 或 模拟 人 类 的 思维 ,那么 自然 语言 处 理 可 能 是 至 关 重 要 的 。 
此 外 , 大 家 将 在 本 书 中 学 习 词 的 数据 结构 及 般 套 关系 中 可 能 隐藏 着 的 有 关 智 能 的 重要 线索 。 大 家 
将 使 用 这 些 结构 ， 而 神经 网 络 使 无 生命 的 系统 能 够 以 看 起 来 像 人 类 的 方式 消化 、 存 储 、 检 索 和 生 
成 自然 语言 。 

还 有 一 个 更 重要 的 原因 , 为 什么 大 家 想 要 学 习 如 何 编写 一 个 使 用 自然 语言 的 系统 ”这 是 因为 
你 也 许可 以 拯救 世界 ! 希望 大 家 已 经 关注 了 大 佬 们 之 间 关 于 人 工 智 能 控制 问题 和 开发 “友好 人 工 
智能 ”的 挑战 的 讨论 。Nick Bostrom 、Calum Chace”、Elon Musk 和 其 他 许多 人 都 认为 ， 人 类 
的 未 来 取决 于 我 们 开发 友好 机 器 的 能 力 。 在 可 预见 的 未 来 , 自然 语言 将 成 为 人 类 和 机 器 之 间 的 重 
要 联系 纽带 。 

即使 我 们 能 够 直接 通过 机 器 进行 “思考 ”， 这 些 想法 也 很 可 能 是 由 我 们 大 脑 中 的 自然 词 和 语 
言 塑造 的 。 自 然 语 言 和 机 器 语言 之 间 的 界限 将 会 变 得 模糊 ， 就 像 人 与 机 器 之 间 的 界限 将 会 消失 一 
















































































































































































] DuckDuckGo 查询 NLP。 
见 维基 百科 词 条 “Natural language processing”。 
见 《 连 线 》 杂 志文 章 “We are Entering the Era of the Brain Machine Interface”( 我 们 正在 进入 脑 机 接 
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示 题 为 “Linguistic relativity”( 语言 相对 论 ) 的 网 页 。 

见 维基 百科 词 条 “AI Control Problem”。 

alum Chace, Surviving 47。 

见 标 题 为 “Why Elon Musk Spent $10 Million To Keep Artificial Intelligence Friendly”( 为 什么 伊 隆 ' 马 
if 克 花 1000 万 美元 来 保持 人 工 智 能 友好 ) 的 网 页 。 
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前 言 5 


样 。 事 实 上 ， 这 条 界线 在 1984 年 开始 变 得 模糊 ， 那 年 《 赛 博 格 宣言 》 “的 发 表 使 George Orwell 
的 反 乌托邦 预言 变 得 更 加 可 能 并 易于 接受 ”。 

希望 “帮助 杯 救 世界 ”这 句 话 没有 计 大 家 产生 疑惑 。 随 着 本 书 的 进展 ,我 们 将 向 读者 展示 如 
何 构建 和 连接 聊天 机 器 人 “大 脑 "。 在 这 个 过 程 中 ， 读 者 会 发 现 人 类 和 机 器 之 间 的 社交 反馈 回路 
上 ， 微 小 的 扰动 都 可 能 会 对 机 器 和 人 类 产生 深远 的 影响 。 就 像 一 只 蝴蝶 在 某 个 地 方 裔 动 翅膀 一 
样 ， 对 聊天 机 器 人 的 “自私 属性 ”上 一 个 微小 的 调整 ， 可 能 会 带 来 敌对 聊天 机 器 人 冲突 行为 的 
混乱 风暴 ”。 大 家 还 会 注意 到 ， 一 些 善 良 无 私 的 系统 会 迅速 聚集 一 批 电 实 的 支持 者 ， 来 帮助 平 
息 由 那些 目光 短 浅 的 机 器 人 造成 的 混乱 。 由 于 亲 社 会 行为 的 网 络 效应 ， 亲 社会 的 协作 型 聊天 机 
器 人 可 以 对 世界 产生 巨大 影响 。 

这 正 是 本 书 作者 聚集 在 一 起 的 原因 。 通过 使 用 我 们 与 生 俱 来 的 语言 在 互联 网 上 进行 开放 、 诚 
实 、 亲 社会 的 交流 ， 形 成 了 一 个 支持 社区 。 我 们 正在 利用 集体 智慧 来 帮助 建立 和 支持 其 他 半 智 能 
的 参与 者 (机 器 ) “。 我 们 希望 我 们 的 话语 能 在 大 家 的 脑海 中 留 下 深刻 的 印象 ， 并 像 meme 一 样 
在 聊天 机 器 人 的 世界 里 广泛 传播 ， 用 构建 亲 社 会 NLP 系统 的 热情 来 感染 其 他 人 。 我 们 希望 ， 当 
超级 智能 最 终 出 现时 ， 这 种 亲 社 会 的 精神 能 对 它 有 略微 的 推动 作用 。 


















































QD Haraway, Cyborg Manifesto。 

@) George Orwell 的 《1984》 的 维基 百科 词 条 。 

@ 维基 百科 词 条 “The Year 1984”。 

@ 聊天 机 器 人 的 主要 工具 是 模仿 与 它 交 谈 的 人 。 对 话 参与 者 可 以 使 用 这 种 影响 对 机 器 人 产生 亲 社 会 和 反 社 
会 行为 的 研究 。 参 见 Tech Republic 的 文章 “Why Microsoft*s Tay AI Bot Went Wrong”( 为 什么 是 微软 的 
Tay AI 机 名 人 出 了 问题 )。 

@@ 关于 自动 驾驶 汽车 可 能 对 高 峰 时 段 交 通 造 成 影响 的 研究 中 ， 可 以 找到 一 个 自动 驾驶 汽车 “感染 ”人 类 的 
例子 。 在 一 些 研究 中 ， 高速 公 路 上 ,你 周围 的 每 十 辆 车 中 就 有 一 辆 车 会 帮助 你 调节 行为 ,减少 拥 墙 ， 
产生 更 通畅 、 更 安全 的 交通 流量 。 

(@) Toby Segaran 的 Programming Collective Intelligence(《 和 集体 智慧 编程 》) 在 2010 年 开启 了 我 的 机 器 学 习 
之 旅 。 






























































































































































异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 


出 


如 果 没 有 一 个 由 才华 横 溢 的 开发 人 员 、 导 师 和 朋友 组 成 的 支持 网 络 , 将 这 本 书 和 软件 组 织 在 
一 起 是 不 可 能 的 。 这 些 文 持 者 来 自 一 个 充满 活力 的 波 特 兰 社区 ， 这 个 社区 得 到 了 PDX Python、 
Hack Oregon 、Hack University 、Civic U、 PDX Data Science 、Hopester、PyDX 、PyLadies 和 Total 
Good 等 组 织 的 支持 。 

Zachary Kent 设计 、 构 建 并 维护 了 openchat (PyCon Open Spaces Twitter bot )，Riley Rustad 
在 本 书 和 我 们 的 技术 不 断 取得 进展 的 过 程 中 为 其 数据 模式 打造 了 原型 。Santi Adavani 使 用 斯 坦 福 
大 学 的 CoreNLP 库 实现 了 命名 实体 识别 , 为 SVD 和 PCA 开发 了 教程 ， 并 支持 我 们 访问 他 的 
RocketML HPC 框架 ， 该 框架 可 以 为 视 障 人 士 训 练 实时 视频 描述 模型 。Eric Miller 分 配 了 一 些 
Squishy Media 的 资源 来 引导 Hobson 的 NLP 可视化 技术 。Erik Larson 和 Aleck Landgraf 慷慨 地 为 
Hobson 和 Hannes 提供 了 在 创业 初期 进行 机 器 学 习 和 NLP 实验 的 空间 。 

Anna Ossowski 帮助 设计 了 PyCon Open Spaces 的 Twitter 机 器 人 ， 并 在 早期 学 习 阶 段 指导 它 
来 发 布 可 靠 的 推 文 。Chick Wells 与 其 他 人 共同 创建 了 Total Good， 为 聊天 机 器 人 开发 了 一 个 聪明 
有 趣 的 智商 测试 项 目 ， 并 不 断 地 用 他 的 专业 知识 支持 我 们 。 像 Kyle Gorman 这 样 的 NLP 专家 慷 
慨 地 与 我 们 分 享 了 他 们 的 时 间 、NLP 专业 知识 、 代 码 和 宝贵 的 数据 集 。Catherine Nikolovski 分 享 
了 她 在 Hack Oregon 和 Civic U 的 社区 和 资源 。Chris Gian 在 本 书 的 示例 中 贡献 了 他 对 NLP 项 目 
的 想法 ， 并 勇敢 接替 了 在 Civic U 机 器 学 习 课 程 中 途 退 出 的 老师 ， 你 真是 一 个 “天 行者 "! Rachel 
Kelly 为 我 们 在 资料 开发 的 早期 阶段 提供 了 展示 和 支持 。Thunder Shiviah 孜孜 不 倦 的 教学 以 及 对 
机 器 学 习 和 生活 的 无 限 热 情 给 了 我 们 源源 不 断 的 灵感 。 

Hopester 的 Molly Murphy 和 Natasha Pettit 激发 了 我 们 开发 亲 社 会 聊天 机 器 人 的 理念 。Jeremy 
Robin 和 Talentpair 团队 提供 了 宝贵 的 软件 工程 反馈 ， 并 帮助 将 本 书 中 提 到 的 一 些 概念 变 为 现实 。 
Dan Fellin 的 PyCon 2016 教程 以 及 Twitter 上 的 Hack University 课程 ,帮助 我 们 开启 了 NLP 的 冒 

伶 之 旅 。Aira 的 Alex Rosengarten 、Enrico Casini 、Rigoberto Macedo 、Charlina Hung 和 Ashwin Kanan 
使 用 高 效 、 可 靠 、 可 维护 的 对 话 引擎 和 微服 务实 现 了 本 书 中 聊天 机 器 人 的 移动 化 。 谢 谢 Ella 和 
Wesley Minton， 你 们 在 学 习 编 写 第 一 个 Python 程序 的 同时 ， 将 我 们 那些 疯狂 的 聊天 机 器 人 的 想 
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2 致谢 




















法 付 诸 实 践 ， 你 们 是 我 们 的 “小 白鼠 ”。Suman Kanuganti 和 Maria MacMullin 的 愿景 是 建立 更 多 
的 基础 设施 ， 使 学 生 可 以 负担 得 起 Aira 的 可 视 化 解释 器 。 感 谢 Clayton Lewis 让 我 参与 到 他 的 认 
知 协助 研究 中 ， 尽 管 在 科 尔 曼 研究 所 的 研讨 会 上 我 只 能 贡献 仅 有 的 热情 和 一 些 陈旧 的 代码 。 

在 本 书 中 讨论 的 一 些 工作 由 Aira 科技 公司 获得 的 美国 国家 科学 基金 会 (NSF ) 资助 项 目 
1722399 支持 。 任 何 观点 、 发 现 及 推荐 仅 代表 本 书 作 者 的 看 法 ， 与 此 处 提 到 的 这 些 组 织 或 个 人 
无 关 。 

最 后 ， 我 们 要 感谢 Manning 出 版 社 每 一 个 人 的 辛勤 工作 ， 感 谢 Arwen Griffioen 博士 为 本 书 
作 序 ， 感 谢 Davide Cadamuro 博士 的 技术 评论 ， 还 要 感谢 所 有 的 审 稿 人 ， 他 们 的 反馈 和 帮助 改进 
了 本 书 , 极 大 增加 了 我 们 的 集体 智慧 。 他 们 是 Chung-Yao Chuang、 Fradj Zayen 、Geoff Barto 、Jared 
Duncan、 Mark Miller 、Parthasarathy Man-dayam 、Roger Meli、Shobha Iyer 、Simona Russo 、Srdjan 
Santic、 Tommaso Teofili、 Tony Mullen、 Vladimir Kuptsov、 William E. Wheeler 和 Yogesh Kulkarni。 



































Hobson Lane 致谢 


永远 感激 我 的 父母 让 我 对 文字 和 数学 充满 了 兴趣 。 我 要 感谢 Larissa Lane 
勇敢 的 冒险 家 ， 感 谢 你 帮助 我 实现 了 两 个 毕生 的 梦想 : 环 游 世界 和 写 一 本 书 。 

感谢 Arzu Karaer， 我 永远 感激 你 的 恩典 和 耐心 ， 感谢 你 帮 我 拾 起 破碎 的 心 ， 重 塑 我 对 人 性 
的 信念 ， 使 本 书 充 满 正 能 量 。 





我 所 认识 的 最 











Cole Howard 致谢 

















我 要 感谢 我 的 妻子 Dawn。 她 超人 的 耐心 和 理解 是 我 的 灵感 的 源泉 。 还 有 我 的 母亲 ， 鼓 励 我 
不 断 地 尝试 和 永远 坚持 学 习 。 


Hannes Max Hapke 致谢 


非常 感谢 我 的 合作 伙伴 Whitrey， 她 一 直 支 持 我 的 努力 。 谢 谢 你 的 建议 和 反馈 。 我 还 要 感谢 
我 的 家 人 ,尤其 是 我 的 父母 ， 他 们 鼓励 我 到 世界 各 地 去 探索 胃 险 。 没 有 他 们 ,所 有 这 些 工作 都 不 
可 能 完成 。1989 年 11 月 的 某 个 夜晚 ， 如 果 没 有 这 些 勇敢 的 男男女女 们 改变 世界 的 壮举 ， 我 所 有 
的 人 生 冒 险 都 是 不 可 能 的 。 谢 谢 你 们 的 勇敢 。 
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加 晶 


本 书 是 处 理 和 生成 自然 语言 文本 的 实用 指南 。 在 本 书 中 ， 我 们 为 大 家 提供 了 构建 后 端 NLP 
系统 所 需 的 所 有 工具 和 技术 ， 以 支持 虚拟 助手 〈 聊 天 机 需 人 )、 垃 圾 邮件 过 滤 需 、 论 坛 版 主 、 情 
感 分 析 器 、 知 识 库 构 建 器 、 自 然 语言 文本 挖掘 器 或 者 其 他 任何 可 以 想到 的 NLP 应 用 程序 。 

本 书面 向 中 高 级 Python 开发 人 员 。 对 于 已 经 能 够 设计 和 构建 复杂 系统 的 读者 ， 本 书 的 大 部 
分 内 容 依然 会 很 有 用 ， 因 为 它 提供 了 许多 实践 示例 ， 并 深入 讲解 了 先进 的 NLP 算法 的 功能 。 虽 
然 面向 对 象 的 Python 开发 知识 可 以 帮助 大 家 构建 更 好 的 系统 ， 但 并 不 是 使 用 本 书 中 学 到 的 知识 
所 必需 的 。 

对 于 一 些 特定 的 主题 ， 我 们 提供 了 充足 的 背景 资料 ， 为 想 深 入 了 解 的 读者 提供 了 参考 资料 
( 包括 文本 和 在 线 资料 )。 


路 线 图 





























如 果 你 是 Python 和 自然 语言 处 理 的 新 手 ， 那 么 应 该 首先 阅读 第 一 部 分 ， 然 后 阅读 第 三 部 分 
中 感 兴趣 或 工作 中 遇 到 的 实际 有 挑战 性 的 章节 。 如 果 想 快速 了 解 深度 学 习 支 持 的 NLP 功能 ， 还 
需要 按 顺 序 阅 读 第 二 部 分 , 这 部 分 内 容 可 以 帮 大 家 建立 对 神经 网 络 的 初步 理解 , 并 逐步 提高 神经 
网 络 的 复杂 性 和 能 力 。 

只 要 发 现 有 一 章 或 章 中 的 一 节 可 以 “在 脑海 中 运行 ”， 你 就 应 该 在 机 器 上 真正 地 运行 它 。 如 
果 任 何 示例 看 起 来 可 以 在 文本 文档 上 运行 ， 就 应 该 将 该 文本 放 入 nlpia/src/nlpia/data/ 目 录 中 的 CSV 
文件 或 文本 文件 中 ， 然 后 使 用 nlpia.data.loader.get _data() 函数 来 提取 这 些 数据 并 运 
行 相应 的 示例 。 


主要 内 容 


第 一 部 分 的 各 章 会 讨论 使 用 自然 语言 的 逻辑 , 并 将 其 转换 为 可 以 搜索 和 计算 的 数字 。 这 种 对 
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2 关于 本 书 





词 的 “拦截 和 处 理 ”在 信息 检索 和 情感 分 析 等 应 用 中 会 带 来 很 好 的 效果 。 一 旦 掌握 了 基本 知识 ， 
大 家 就 会 发 现 有 一 些 非 常 简单 的 算法 ,通过 循环 反复 计算 ， 就 可 以 解决 一 些 重要 的 问题 ， 如 垃圾 
邮件 过 滤 。 大 家 将 在 第 2 章 到 第 4 章 中 学 到 的 这 种 垃圾 邮件 过 滤 技 术 , 正在 将 全 球 电子 邮件 系统 
从 混乱 和 停滞 中 拯救 出 来 。 大 家 将 学 习 如 何 使 用 20 世纪 90 年 代 的 技术 来 构建 一 个 精确 率 超 过 
90% 的 垃圾 邮件 过 滤器 一 一 只 需要 通过 计算 词 的 数目 并 对 这 些 数目 计算 一 些 简单 的 平均 值 即 可 。 

这 些 文字 上 的 数学 运算 听 起 来 可 能 很 乏味 , 但 实际 上 却 非 常 有 趣 。 很 快 ， 大 家 就 可 以 构建 出 
能 够 对 自然 语言 做 出 决策 的 算法 ， 而 且 可 能 比 你 自己 做 出 的 更 好 、 更 快 。 这 可 能 是 大 家 人 生 中 第 
一 次 以 这 样 的 视角 来 充分 欣赏 语言 反映 和 赋予 你 思考 的 方式 。 词 和 思想 的 高 维 向 量 空间 视图 将 让 
你 的 大 脑 进入 不 断 自我 发 现 的 循环 。 

本 书 的 第 二 部 分 将 是 学 习 的 高 潮 。 这 部 分 的 核心 是 探索 神经 网 络 中 复杂 的 计算 和 通信 网 络 。 
在 一 个 具有 “思维 ”的 网 络 中 ,小 型 逻辑 单元 之 间 相 互 作 用 的 网 络 效应 使 机 器 能 够 解决 一 些 过 去 
只 有 聪明 的 人 类 才能 解决 的 问题 ， 例 如 类 比 问题 、 文 本 摘要 和 自然 语言 翻译 。 

是 的 ,大 家 还 会 学 到 词 问 量 ， 别 担心 ,不 过 确实 还 有 很 多 。 大 家 将 掌握 对 词 、 文 档 和 句子 进 
行 可 视 化 , 并 将 它们 置 于 一 个 由 相互 关联 的 概念 组 成 的 云 中 , 这 些 概念 远 远 超出 了 大 家 可 以 轻松 
掌握 的 三 维 空间 。 大 家 会 把 文档 和 词 想 象 成 “ 龙 与 地 下 城 ”的 角色 表 ， 里 面 有 无 数 随机 选择 的 特 
征 和 能 力 ， 它 们 随 着 时 间 的 推移 而 进化 和 成 长 ， 当 然 这 些 只 发 生 在 我 们 的 头脑 中 。 

对 词 及 其 含义 的 理解 将 是 第 三 部 分 “进入 现实 世界 ”的 基础 , 在 这 里 大 家 将 学 习 如 何 构建 
够 像 人 类 一 样 交 谈 和 回答 问题 的 机 器 。 


天 于 代码 


本 书 列 出 了 许多 源 代码 的 示例 , 包含 在 编号 的 代码 清单 以 及 正文 中 。 源 代码 都 使 用 等 宽 的 字 
体 , 以 便 与 普通 文本 进行 区 分 。 有 时 , 如果 代码 与 之 前 相 比 有 所 变化 , 例如 , 添加 了 一 些 新 特性 ， 
会 通过 加 粗 进行 突出 显示 。 

大 多 数 时 候 , 原始 源 代 码 已 经 做 了 重新 格式 化 , 我 们 添加 了 换行 符 和 重新 缩 进 ， 以 适应 本 书 
的 页 面 宽度 ， 但 在 极 少数 情况 下 ， 这 样 还 不 够 ， 所 以 我 们 会 在 代码 清单 中 使 用 续 行 标记 (〈 对)。 
此 外 ， 当 在 正文 中 描述 代码 时 , 通常 会 将 源 代码 中 的 注释 删 掉 。 许 多 代码 清单 中 都 附加 了 代码 注 
释 ， 以 强调 一 些 重要 概念 。 

本 书 所 有 代码 清单 中 的 源 代 码 均 可 从 出 版 社 网 站 和 本 书 的 GitHub 下 载 。 
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央 园 轴 关 关 


霍 布 森 . 莱恩 ( Hobson Lane ) 拥有 20 年 构建 自主 系统 的 经 验 ， 这 些 系 统 
能 够 代表 人 类 做 出 重要 决策 。 Hobson 在 Talentpair 训练 机 融 完 成 简历 的 阅读 和 
理解 ， 以 减少 招聘 者 产生 的 偏见 。 在 Aira， 他 帮助 构建 了 第 一 个 聊天 机 器 人 ， 
为 视 障 人 十 描述 视觉 世界 。 他 热衷 于 开放 和 亲 社 会 的 人 工 智 能 。 他 是 Keras、 
scikit-learn、PyBrain 、PUGNLP 和 ChatterBot 等 开源 项 目的 积极 贡献 者 。 他 目 
前 正在 从 事 完全 公益 的 开放 科学 研究 和 教育 项 目 , 包括 构建 一 个 开放 源码 的 认 
知 助手 。 他 在 AIAA、PyCon 、PAIS 和 IEEE 上 发 表 了 多 篇 论文 和 演讲 ， 并 获 
得 了 机 需 人 和 自动 化 领域 的 多 项 专利 。 

科 尔 … 霍华德 (Cole Howard ) 是 一 位 机 器 学 习 工 程 师 、NLP 实践 者 和 作 
家 。 他 一 生 都 在 寻找 模式 ， 并 在 人 工 神经 网 络 的 世界 里 找到 了 自己 真正 的 家 。 
他 开发 了 大 型 电子 商务 推荐 引擎 和 面向 超 维 机 器 智能 系统 ( 深度 学 习 神 经 网 
络 ) 的 最 先进 的 神经 网 络 ， 这 些 系统 在 Kaggle 竞赛 中 名 列 前 茅 。 他 曾 在 Open 
Source Bridge 和 Hack University 大 会 上 发 表演 讲 , 介绍 卷 积 神经 网 络 、 循 环 神 
经 网 络 及 其 在 自然 语言 处 理 中 的 作用 。 

汉 纳 斯 : 马克 斯 : 哈 普 克 (Hannes Max Hapke ) 是 从 一 位 电气 工程 师 转行 
成 为 机 器 学 习 工 程 师 的 。 他 在 高 中 研究 如 何在 微 控 制 器 上 计算 神经 网 络 时 ,对 
神经 网 络 产 生 了 浓厚 的 兴趣 。 在 大 学 后 期 , 他 应 用 神经 网 络 的 概念 来 有 效 地 控 
制 可 再 生 能 源 发 电厂 。Hannes 喜欢 自动 化 软件 开发 和 机 带 学 习 流 水 线 。 他 与 
合作 者 共同 开发 了 面向 招聘 、 能 源 和 医疗 应 用 的 深度 学 习 模 型 和 机 器 学 习 流 水 
线 。Hannes 在 包括 OSCON 、Open Source Bridge 和 Hack University 在 内 的 各 种 
会 议 上 发 表演 讲 介 绍 机 咒 学 习 。 















































异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 
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本 书 封面 上 插画 的 标题 为 “斯 洛 文 尼 亚 克 拉 尼斯 卡 戈 拉 的 妇女 ”( Woman from Kranjska Gora, 
Slovenia )。 该 插画 来 自 克罗地亚 斯 普 利 特 民 族 博物 馆 于 2008 年 出 版 的 Balthasar Hacquet 的 Images 
and Descriptions of Southwestern and Eastern Wends, IIlyrians, and Slavs 最 新 重印 版 本 。Hacquet 
(1739 一 1815 ) 是 一 名 奥地利 医生 和 科学 家 ， 他 花费 多 年 时 间 研 究 朱 利安 阿尔 摆 斯 山 的 植物 、 地 
质 和 人 种 。Hacquet 发 表 的 许多 科学 论文 和 书籍 都 附 有 手绘 插画 。 

Hacquet 的 作品 中 丰富 多 彩 的 绘画 生动 地 描绘 了 200 年 前 东部 阿尔 卑 斯 地 区 的 独特 性 和 个 体 
性 。 在 那个 时 代 ， 相 距 几 千 米 的 两 个 村 庄村 民 的 衣着 都 过 然 不 同 ， 当 有 社交 活动 或 交易 时 ,不 同 
地 区 的 人 们 很 容易 通过 着 装 来 辨别 。 从 那 之 后 ， 着 装 规范 不 断 发 生变 化 ,不 同 地 区 的 多 样 性 也 
逐渐 消失 。 现 在 即使 是 两 个 大 陆 的 居民 之 间 往 往 也 很 难 区 分 了 。 今天 居住 在 斯 洛 文 尼 亚 阿 尔 插 
斯 山上 风景 如 画 的 城镇 和 村 庄 里 的 居民 , 与 斯 洛 文 尼 亚 其 他 地 区 或 欧洲 其 他 地 区 的 居民 并 无 明 
显 区 别 。 

Manning 出 版 社 利 用 两 个 世纪 前 的 服装 来 设计 书籍 封面 , 以 此 来 赞颂 计算 机 产业 所 具有 的 创 
造 性 、 主 动 性 和 趣味 性 。 正 如 本 书 封面 插画 一 样 ， 这 些 图 片 也 把 我 们 带 回 到 过 去 的 生活 中 去 。 
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请 网 加 网 册 罗 上 央 上 


本 书 由 异步 社区 出 品 ， 社 区 ( https:/www.epubit.com/ ) 为 您 提供 相关 资源 和 后 续 服务 。 


配套 资源 
本 书 提供 源 代码 和 书 中 提 及 数据 集 的 下 载 。 要 获得 以 上 配套 资源 ,请 在 异步 社区 本 书页 面 中 


单 击 匡 于 3 时,， 跳 转 到 下 载 界面 ， 按 提示 进行 操作 即 可 。 注 意 : 为 保证 购书 读者 的 权益 ， 该 操作 
会 给 出 相关 提示 ， 要 求 输入 提取 码 进行 验证 。 


提交 勘误 

作者 和 编辑 尽 最 大 努力 来 确保 书 中 内 容 的 准确 性 ,但 难免 会 存在 疏漏 。 欢 迎 您 将 发 现 的 
问题 反馈 给 我 们 ， 帮 助 我 们 提升 图 书 的 质量 。 

当 您 发 现 错误 时 ， 请 登录 异步 社区 ， 按 书 名 搜索 ， 进 入 本 书页 面 ， 单 击 “ 提 交 勘 误 ”， 输 入 勘 
误 信息 ， 单 击 “ 提 交 ” 按 钮 即 可 。 本 书 的 作者 和 编辑 会 对 您 提交 的 勘误 进行 审核 ， 确 认 并 接受 后 ， 
您 将 获 赠 异步 社区 的 100 积分 。 积 分 可 用 于 在 异步 社区 兑换 优惠 券 、 样 书 或 奖品 。 
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2 资源 与 支持 


与 我 们 联系 


我 们 的 联系 邮箱 是 contact@epubit.com.cn。 

如 果 您 对 本 书 有 任何 疑问 或 建议 , 请 您 发 邮件 给 我 们 ,并 请 在 邮件 标题 中 注 明 本 书 书 名 ， 以 
便 我 们 更 高 效 地 做 出 反馈 。 

如 果 您 有 兴趣 出 版 图 书 、 录 制 教学 视频 ， 或 者 参与 图 书 翻译 、 技 术 审 校 等 工作 ， 可 以 发 邮件 
给 我 们 ;有意 出 版 图 书 的 作者 也 可 以 到 异步 社区 在 线 投稿 ( 直接 访问 www.epubit.com/selfpublish/ 
submission 即 可 )。 

如 果 您 来 自学 校 、 培 训 机 构 或 企业 ， 想 批量 购买 本 书 或 异步 社区 出 版 的 其 他 图 书 , 也 可 以 发 
邮件 给 我 们 。 

如 果 您 在 网 上 发 现 有 针对 异步 社区 出 品 图 书 的 各 种 形式 的 盗版 行为 , 包括 对 图 书 全 部 或 
部 分 内 容 的 非 授权 传播 ， 请 您 将 怀疑 有 侵权 行为 的 链接 发 邮件 给 我 们 。 您 的 这 一 举动 是 对 作 
者 权益 的 保护 ， 也 是 我 们 持续 为 您 提供 有 价值 的 内 容 的 动力 之 源 。 


关于 异步 社区 和 异步 图 书 


“异步 社区 ”是 人 民 邮 电 出 版 社 旗下 IT 专业 图 书社 区 ， 致 力 于 出 版 精品 IT 技术 图 书 和 相关 学 习 
产品 ， 为 作 译 者 提供 优质 出 版 服务 。 异 步 社区 创办 于 2015 年 8 月 ， 提 供 大 量 精品 IT 技术 图 书 和 电 
子 书 ， 以 及 高 品质 技术 文章 和 视频 课程 。 更 多 详情 请 访问 异步 社区 官网 https:/www.epubitcom。 

“异步 图 书 ” 是 由 异步 社区 编辑 团队 策划 出 版 的 精品 IT 专业 图 书 的 品牌 , 依托 于 人 民 邮 电 出 
版 社 近 30 年 的 计算 机 图 书 出 版 积累 和 专业 编辑 团队 , 相关 图 书 在 封面 上 印 有 异步 图 书 的 LOGO。 
异步 图 书 的 出 版 领域 包括 软件 开发 、 大 数据 、AI、 测 试 、 前 端 、 网 络 技术 等 。 
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第 一 部 分 
处 理 文本 的 机 器 


生生 一 部 分 会 介绍 一 些 来 自 真实 世界 的 应 用 ， 从 而 开启 大 家 的 自然 语言 处 理 ( Natural 
Language Processing，NLP ) “冒险 之 旅 ”。 

在 第 1 章 中 , 我 们 将 很 快 开 始 思考 一 个 问题 : 如 何在 自己 的 生活 中 使 用 机 器 来 处 理 文 
字 ? 希望 大 家 能 感受 到 机 器 的 魔力 一 一 它 具 备 从 自然 语言 文档 的 词语 中 收集 信息 的 能 
词语 是 所 有 语言 的 基础 , 无 论 是 编程 语言 中 的 关键 字 还 是 孩提 时 代 学 到 的 自然 语言 词语 都 
是 如 此 。 

在 第 2 章 中 , 我 们 将 会 提供 一 些 可 以 教会 机 器 从 文档 中 提取 词语 的 工具 。 这 类 工具 比 
想象 的 要 多 得 多 , 我 们 将 展示 其 中 所 有 的 技巧 。 大 家 将 学 会 如 何 将 自然 语言 中 的 词语 自动 
聚合 成 具有 相似 含义 的 词语 集合 ， 而 不 需要 手工 制作 同义词 表 。 

在 第 3 章 中 ， 我 们 将 对 这 些 词语 进行 计数 ， 并 将 它们 组 织 成 表示 文档 含义 的 向 量 。 
无 论文 档 是 140 字 的 推 文 还 是 500 页 的 小 说 , 我 们 都 可 以 使 用 这 些 向 量 来 表示 整 篇 文档 的 
含义 。 

在 第 4 章 中 , 我 们 会 学 到 一 些 久 经 考验 的 数学 技巧 , 它们 可 以 将 前 面 的 向 量 压缩 为 更 
有 用 的 主题 向 量 。 

到 第 一 部 分 结束 时 , 读者 将 会 掌握 很 多 有 趣 的 NLP 应 用 (从 语义 搜索 到 聊天 机 器 人 ) 
所 需 的 工具 。 
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U 10 NLPUO 





本 章 主 要 内 容 

图 自然 语言 处 理 (NLP ) 的 概念 

图 NLP 的 难点 以 及 近年 来 才 开 始 流行 的 原因 

图 词 序 和 语法 重要 或 可 以 忽略 的 时 机 

图 如 何 利用 多 个 NLP 工具 构建 聊天 机 器 人 

图 如 何 利 用 正则 表达 式 初步 构建 一 个 微型 聊天 机 器 人 

















我 们 即将 开启 一 段 激 动人 心 的 自然 语言 处 理 (NLP ) 冒险 之 旅 ! 首先 ， 本 章 将 介绍 NLP 的 
概念 及 其 应 用 场景 ， 从 而 启发 大 家 的 NLP 思维 ， 不 论 你 是 在 工作 还 是 在 家 ， 都 能 够 帮助 大 家 思 
考生 活 中 的 NLP 使 用 之 道 。 
然后 ,我 们 将 深入 探索 细节 ， 研 究 如 何 使 用 Python 这 样 的 编程 语言 来 处 理 一 小 段 英文 文本 ， 
从 而 帮助 大 家 逐步 构建 自己 的 NLP 工具 箱 。 在 本 章 中 ， 读 考 将 会 编写 自己 的 第 一 个 可 以 读 写 英 
语 语句 的 程序 ， 该 Python 代码 片段 将 是 学 习 “ 组 装 ” 英 语 对 话 引擎 〈 聊天 机 器 人 ) 所 需 所 有 技 
巧 的 第 一 段 代码 。 




























































































11 自然 语言 与 编程 语言 


和 计算 机 编程 语言 不 同 ,自然 语言 并 不 会 被 翻译 成 一 组 有 限 的 数学 运算 集合 。 人 类 利用 自然 
语言 分 享 信息 ,而 不 会 使 用 编程 语言 谈天 说 地 或 者 指引 去 杂货 店 的 路 。 用 编程 语言 编写 的 计算 机 
程序 会 清楚 地 告诉 机 器 做 什么 ， 而 对 于 像 英 语 或 者 法 语 这 样 的 自然 语言 ,并 没有 所 谓 的 编译 器 或 
解释 器 将 它们 翻译 成 机 器 指令 。 

定义 自然 语言 处 理 是 计算 机 科学 和 人 工 智能 (artificial intelligence，AI ) 的 一 个 研究 领域 ， 它 关注 

自然 语言 ( 如 英语 或 汉语 普通 话 ) 的 处 理 。 这 种 处 理 通 党 包括 将 自然 语言 转换 成 计算 机 能 够 用 于 理 

解 这 个 世界 的 数据 ( 数字 )。 同 时 ， 这 种 对 世界 的 理解 有 时 被 用 于 生成 能 够 体现 这 种 理解 的 自然 语 
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4 第 1 章 NLP 概述 
言 文本 ( 即 自然 语言 生成 )"。 


尽管 如 此 , 本 章 还 是 介绍 机 器 如 何 能 够 对 自然 语言 进行 处 理 这 一 过 程 。 我们 甚至 可 以 把 该 处 
理 过 程 看 成 是 自然 语言 的 解释 器 ， 就 如 同 Python 的 解释 器 一 样 。 在 开发 计算 机 程序 处 理 自然 语 
言 时 ， 它 能 够 在 语句 上 触发 动作 甚至 进行 回复 。 但 是 这 些 动 作 和 回复 并 没有 精确 定义 , 这 让 自然 
语言 “流水 线 ”的 开发 者 拥有 更 多 的 灵活 性 。 

定义 自然 语言 处 理 系统 常常 被 称 为 “流水 线 ”(pipeline ), 这 是 因为 该 系统 往往 包括 多 个 处 理 环 节 ， 

其 中 自然 语言 从 “流水 线 ”的 一 端 输入 ， 处 理 后 的 结果 从 另 一 端 输出 。 

很 快 大 家 就 有 能 力 编写 软件 来 做 一 些 有 趣 的 、 出 乎 意料 的 事情 ,例如 ,可 以 让 机 咒 有 点 儿 像 
人 一 样 进行 对 话 。 这 看 起 来 可 能 有 点 儿 像 魔术 , 是 的 , 所 有 的 先进 技术 最 初 看 起 来 都 有 点 儿 像 魔 
术 。 但 是 ,我 们 会 拉 开 魔术 背后 的 “帷幕 ”让 大 家 一 探究 竟 ， 这 样 大 家 很 快 就 会 知道 自己 变 出 这 
些 魔术 所 需要 的 所 有 道具 和 工具 。 












































Dave Magee， 估 治 亚 理工 学 院 ，1995 


12 神奇 的 魔法 


能 够 读 写 自然 语言 的 机 器 有 什么 神奇 之 处 呢 ? 自 从 发 明 计算 机 以 来 ， 机 器 一 直 在 处 理 语言 。 
然而 ， 这 些 “ 形 式 ” 语 言 ( 如 早期 语言 Ada、COBOL 和 Fortran ) 被 设计 成 只 有 一 种 正确 的 解释 
(或 编译 ) 方式 。 目 前 ， 维 基 百 科 列 出 了 700 多 种 编程 语言 。 相 比 之 下 ，Ethnologue 已 经 确认 的 
自然 语言 总 数 是 当前 世界 各 地 人 们 所 用 的 自然 语言 的 10 倍 。 谷 歌 的 自然 语言 文档 索引 远 超过 1 
亿 吉 字 节 ”, 而 且 这 只 是 索引 而 已 ， 当 前 在 线 的 实际 自然 语言 内 容 大 小 肯定 超过 1000 亿 吉 字 节 ， 
同时 这 些 文档 并 没有 完全 覆盖 整个 互联 网 。 但 是 自然 语言 文本 数量 之 庞大 并 不 是 使 自然 语言 文本 
处 理 软件 开发 十 分 重要 的 唯一 原因 。 

自然 语言 处 理 真 的 很 难 , 能 够 处 理 某 些 自然 事物 的 机 器 本 身 却 不 是 自然 的 。 这 有 儿 点 像 使 用 
建筑 图 来 建造 一 个 有 用 的 建筑 。 当 软件 能 够 处 理 不 是 为 了 机 器 理解 而 设计 的 语言 时 , 这 看 上 去 相 
当 神 奇 ， 我 们 通常 认为 这 是 人 类 独 有 的 一 种 能 

“自然 语言 ”与 “自然 世界 ”中 “自然 ”一 词 的 意义 相同 。 世 界 上 自然 的 、 进 化 的 事物 不 同 
于 人 类 设计 和 制造 的 机 械 的 、 人 工 的 东西 。 能 够 设计 和 构建 软件 来 阅读 和 处 理 大 家 现在 正在 阅读 
的 语言 ， 该 语言 正 是 关于 如 何 构建 软件 来 处 理 自然 语言 的 ， 这 非常 高 级 ， 也 十 分 神奇 。 















































































































































Q@ 通常 认为 ， 自 然 语 言 处 理 包 括 自然 语言 理解 (Natural Language Understanding，NLU ) 和 自然 语言 生成 
( Natural Language Generation，NLG )。 一 一 译 者 注 

@ Ethnologue 是 一 个 Web 出 版 物 ， 它 维护 着 一 些 有 关 自 然 语言 的 统计 信息 。 

@) 详 见 标题 为 “How Google’s Site Crawlers Index Your Site - Google Search” 的 网 页 。 

@ 我 们 可 以 估计 出 实际 自然 语言 文本 的 数量 至 少 是 谷歌 索引 的 1000 倍 。 
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1.2 ”神奇 的 魔法 5 





为 了 让 后 续 处 理 更 加 容易 ， 我 们 只 关注 一 种 自然 语言 一 一 英语 。 当 然 ， 大 家 也 可 以 使 用 
从 本 书 中 学 到 的 技术 来 处 理 任何 语言 ， 其 至 对 于 这 种 语言 大 家 完全 不 懂 , 或 者 它 还 没有 被 考古 
学 家 和 语言 学 家 破译 。 本 书 也 将 展示 如 何 仅 仅 使 用 一 种 编程 语言 Python, 来 编写 程序 以 处 理 和 
生成 自然 语言 文本 。 

Python 从 一 开始 就 被 设计 成 一 种 可 读 的 语言 , 也 公开 了 很 多 其 内 部 语言 处 理 机 制 。 上 述 两 个 
寺 点 使 Python 成 为 学 习 自 然 语言 处 理 的 一 个 很 自然 的 选择 。 在 企业 级 环境 下 为 NLP 算法 构建 可 
维护 的 生产 流水 线 时 ,Python 也 是 一 种 很 棒 的 语言 , 在 单个 代码 库 上 有 很 多 贡献 者 。 甚 至 在 某 些 
可 能 的 地 方 ，Python 是 代替 数学 和 数学 符号 的 “通用 语言 ”。 毕 竞 ，Python 可 以 无 歧义 地 描述 数 
学 算法 ,设计 它 的 目标 就 是 针对 你 我 这 样 的 程序 员 ， 使 其 尽 可 能 地 具备 可 读 性 。 





































































































自然 语言 不 能 直接 被 翻译 成 一 组 精确 的 数学 运算 集合 , 但 是 它们 确实 包含 可 供 提取 的 信息 和 
指令 。 这 些 信息 和 指令 可 以 被 存储 、 索 引 、 搜 索 或 立即 使 用 。 使 用 方式 之 一 可 能 是 生成 一 段 词语 
序列 对 某 条 语句 进行 回复 。 这 属于 后 面 将 要 构建 的 “对 话 引 擎 ”或 聊天 机 器 人 的 功能 。 

下 面 我 们 只 关注 英文 书面 文本 文档 和 消息 , 而 非 口语 。 这 里 绕 过 了 从 口语 到 文本 的 转换 一 一 
语音 识别 , 或 语音 转 文 本 ( 即 STT ) 过 程 。 同 样 ， 我 们 也 略 过 语音 生成 或 称 文本 转 语音 ， 即 将 文 
本 转换 回 语音 的 过 程 。 当 然 , 由 于 存在 很 多 语音 转 文本 及 文本 转 语音 的 免费 库 ， 大 家 仍然 可 以 使 
用 本 书 学 到 的 内 容 来 构建 像 Siri 或 Alexa 一 样 的 语音 交互 界面 或 虚拟 助手 。Android 和 iOS 移动 
操作 系统 也 提供 了 高 质量 的 语音 识别 和 生成 API， 并 且 有 很 多 Python 包 也 能 在 笔记 本 电脑 或 服 
务 器 上 实现 类 似 的 功能 。 


语音 识别 系统 

如 果 你 想 自 己 构建 一 个 定制 化 的 语音 识别 或 生成 系统 ， 那 么 这 项 任务 本 身 就 需要 一 整 本 书 来 介绍 。 
我 们 可 以 把 这 个 作为 练习 留 给 读者 。 要 完成 这 样 的 系统 ， 需 要 大 量 高 质量 的 标注 数据 ， 包 括 带 有 音标 拼 
写 注释 的 语音 记录 以 及 与 音频 文件 对 齐 的 自然 语言 转 写 文本 。 从 本 书 中 学 到 的 一 些 算法 可 能 会 对 建立 这 
样 的 系统 有 所 帮助 ， 但 大 部 分 语音 识别 和 生成 算法 和 本 书 中 的 有 很 大 区 别 。 
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1.2.2 NLP 中 的 数学 


从 自然 语言 中 提取 有 用 的 信息 可 能 会 很 困难 , 这 需要 乏味 的 统计 记录 , 但 这 正 是 机 器 的 作用 
所 在 。 和 许多 其 他 技术 问题 一 样 ， 一旦 知道 答案 ,解决 起 来 就 容易 多 了 。 机 器 仍然 无 法 像 人 类 一 
样 精确 可 靠 地 执行 很 多 实际 的 NLP 任务 ， 如 对 话 和 阅读 理解 。 因 此 ， 大 家 需要 对 从 本 书 中 学 到 
的 算法 进行 调整 来 更 好 地 完成 一 些 NLP 任务 。 

然而 ， 在 执行 一 些 令 人 惊讶 的 精细 任务 上 ， 本 书 介绍 的 技术 已 经 足够 强大 ， 根 据 它们 构 























Q@ 数学 符号 是 有 歧义 的 ， 参 见 维基 百科 文章 “Ambiguity” 的 “Mathematical notation” 一 节 。 
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建 的 机 器 在 精度 和 速度 上 都 超过 了 人 类 。 举 例 来 说 ， 大 家 可 能 猜 不 到 的 是 ， 在 对 单条 Twitter 
消息 进行 讽刺 识别 上 ,机 器 比 人 类 更 精确 "。 大 家 不 要 担心 , 由 于 人 类 有 能 力 保留 对 话 的 上 下 
文 信息 ， 因 此 仍然 更 善于 识别 连续 对 话 中 的 幽默 和 讽刺 。 当 然 ， 机 器 也 越 来 越 善于 保留 上 下 
文 。 如 果 大 家 想 尝试 超过 当前 最 高 水 平 的 话 ， 本 书 将 帮助 大 家 把 上 下 文 (元 数据 ) 融入 NLP 
流水 线 中 。 

一 旦 从 自然 语言 中 提取 出 结构 化 的 数值 型 数据 一 一 向 量 之 后 , 就 可 以 利用 各 种 数学 工具 和 机 
器 学 习 工 具 。 我 们 可 以 使 用 类 似 于 将 三 维 物 体 投影 到 二 维 计算 机 屏幕 的 线性 代数 方法 , 这 些 方法 
早 在 NLP 自 成 体系 之 前 就 被 计算 机 和 绘图 员 所 使 用 了 。 这 些 突破 性 的 想法 开启 了 一 个 “语义 ” 
分 析 的 世界 ， 即 让 计算 机 能 够 解释 和 存储 语句 的 “含义 ”"， 而 不 仅仅 是 对 其 中 的 词 或 字符 计数 。 
语义 分 析 和 统计 学 一 起 可 以 有 助 于 解决 自然 语言 的 歧义 性 , 这 里 的 歧义 性 是 指 词 或 短语 通常 具有 
多 重 含义 或 者 解释 。 

因此 ， 从 自然 语言 文本 中 提取 信息 和 构建 编程 语言 的 编译 器 完全 不 同 (这 一 点 对 大 家 来 说 很 
幸运 )。 目 前 最 有 前 景 的 技术 绕 过 了 正则 语法 (模式 ) 或 形式 语言 的 严格 规则 。 我 们 可 以 依赖 词语 
之 间 的 统计 关系 ， 而 不 是 逻辑 规则 表述 的 深层 系统 。 想 象 一 下 ， 如 果 必 须 通 过 笛 套 的 i£...then 
语句 树 来 定义 英语 语法 和 拼写 规则 ,大 家 能 撰写 足够 多 的 规则 来 处 理 词 、 字 母 和 标点 符号 一 起 组 
成 句子 的 每 一 种 可 能 方式 吗 ? 大 家 能 捕捉 语义 , 即 英语 语句 的 意义 吗 ? 虽然 规则 对 某 些 类 型 的 语 
句 有 用 , 但 可 以 想象 一 下 该 软件 是 多 么 的 有 局 限 性 和 脆弱 ，, 一些 事 先 不 曾 意 料 到 的 拼写 或 标点 符 
号 会 破坏 或 扰乱 基于 规则 的 算法 。 

此 外 ， 自 然 语言 还 有 一 个 更 难 解决 的 所 谓 “解码 ” 挑 成 。 用 自然 语言 说 话 和 写作 的 人 都 假定 
守 息 处 理 ( 听 或 者 读 ) 的 对 象 是 人 而 非 机 器 。 所 以 当 人 们 说 “早上 好 ”时 ,肯定 假想 对 方 已 经 对 
“早上 ”的 含义 有 所 了 解 ， 即 早上 不 仅 包 括 中 午 、 下 午 和 晚上 之 前 的 那个 时 段 ， 也 包括 午夜 之 后 
的 那个 时 段 。 同 时 ， 大 家 需要 知道 ， 这 些 词 既 可 以 代表 一 天 中 的 不 同时 间 ,， 根据 一 般 经 验 ， 也 可 
以 代表 一 天 中 的 一 段 时 间 。 可 以 假定 解码 器 知道 “早上 好 ”只 是 一 个 普通 的 问候 语 ， 而 没有 包含 
关于 “早上 ”的 任何 信息 ， 相 反 ， 它 反映 了 说 话 者 的 精神 状态 以 及 与 他 人 交谈 的 意愿 。 

这 种 关于 人 类 如 何 处 理 语言 的 思维 理论 后 来 被 证 实 是 一 个 强 有 力 的 假设 。 如 果 我 们 假设 人 类 
的 语言 “处 理 器 ”拥有 人 类 一 生 关 于 世界 的 常识 ,我 们 就 能 用 很 少 的 话 表达 很 多 信息 。 这 种 信息 
压缩 率 仍 非 机 器 的 能 力 可 及 。 在 NLP 流水 线 中 也 没有 明确 的 “思维 理论 ”可 以 参照 。 不 过 , 我 
们 将 在 后 面 的 章节 中 介绍 一 些 技术 , 这 些 技术 可 以 帮助 机 器 构建 常识 的 本 体 与 知识 库 , 它们 可 以 
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(QD Gonzalo - Ibanez 等 人 发 现 ， 即 使 是 受过 教育 和 培训 的 人 类 评判 员 ， 也 无 法 达到 他 们 在 ACM 论文 中 报告 
的 采用 简单 分 类 算法 达到 的 68% 的 精确 率 。 康 奈 尔 大 学 Matthew Cliché 开发 的 Sarcasm Detector 和 Web 
应 用 程序 也 达到 了 类 似 的 精确 率 ( >70% )。 

@ 一 些 语法 规则 可 以 通过 计算 机 科学 抽象 中 的 有 限 状态 机 来 实现 。 正 则 语法 可 以 通过 正则 表达 式 来 实现 。 
Python 有 两 个 包 可 以 用 于 运行 正则 表达 式 有 限 状 态 机 ， 一 个 是 内 肉 的 re， 另 一 个 是 regex， 必 须要 额 
外 安装 ,但 是 后 者 应 该 很 快 会 代替 前 者 。 有 限 状 态 机 就 是 一 棵 树 ， 包 括 面 向 每 个 词 条 (字符 / 词 /n 元 ) 
的 if...then... 语 句 以 及 机 带 必 须要 回应 或 生成 的 行为 动作 。 
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1.3 ”实际 应 用 7 
用 于 理解 依赖 这 些 知 识 的 自然 语言 语句 。 
13 实际 应 用 
自然 语言 处 理 无 处 不 在 。 它 是 如 此 普遍 ， 以 至 于 表 1-1 中 的 一 些 例子 可 能 会 出 乎 大 家 的 意料 。 
表 1-1 各 种 类 型 的 NLP 应 用 
搜索 Web 文档 自动 补 全 
编辑 拼写 语法 风格 
对 话 聊天 机 器 人 助手 行程 安排 
写作 索引 用 语 索 引 目录 
电子 邮件 垃圾 邮件 过 滤 分 类 优先 级 排序 
文本 挖掘 摘要 知识 提取 医学 诊断 
法 律 法 律 断 案 先例 搜索 传票 分 类 
新 闻 事件 检测 真相 核查 标题 排 字 
归属 简 穷 检测 文学 取证 风格 指导 
情感 分 析 队 士 气 监控 产品 评论 分 类 客户 关怀 
行为 预测 金融 选举 预测 营销 
创作 电影 脚本 诗歌 歌词 
如 果 在 索引 网 页 或 文档 库 时 考虑 了 自然 语言 文本 的 含义 , 那么 搜索 引擎 可 以 提供 更 有 意义 的 


结果 。 自 动 补 全 (autocomplete ) 功能 使 用 NLP 技术 来 完成 所 想 语句 的 输 
机 键盘 中 十 分 常见 。 许 多 文字 处 理 器 、 浏 览 器 插件 
别 是 近年 来 ，; 











生成 等 功能 ， 特 








自然 语言 搜索 来 为 对 话 消息 查找 相应 的 回复 。 
在 聊天 机 器 人 和 虚拟 助手 中 ， 生 成 《撰写 ) 文本 的 NLP 流水 线 不 仅 可 以 用 来 撰写 简短 的 回 


复 ， 还 可 以 编写 长 得 多 的 文本 段落 。 美 联 社 使 有 








jij 和信 ， 这 在 搜索 引擎 和 手 








和 文本 编辑 器 都 有 拼写 校正 、 语 法 检查 、 索 引 
还 出 现 了 写作 风格 指导 的 功能 。 一 些 对 话 引擎 〈 聊天 机 器 人 ) 使 用 
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有 NLP“ 机 器 人 记者 ”撰写 完整 的 金融 新 闻 和 体育 
赛事 等 报道 。 也 许 是 因为 人 类 气象 学 家 使 用 了 带 有 NLP 功能 的 文字 处 理 器 来 起 草 天 气 预报 的 肢 





本 ， 机 需 人 编写 的 天 气 预 报 听 起 来 和 家 乡 天 气 预报 员 的 播报 并 没有 什么 两 样 。 


早期 电子 邮件 系统 中 的 NLP 垃圾 邮件 过 滤器 助力 


























电话 和 传真 这 两 个 传统 通信 渠道 。 在 垃圾 邮件 过 滤器 和 




















昌 子 邮件 ， 使 其 在 20 世纪 90 年 代 超越 了 
垃圾 邮件 制造 者 之 间 的 这 场 “ 猫 鼠 游 戏 ” 


@ 2015 年 1 月 29 日 发 布 于 科技 博客 The Verge 的 一 篇 文章 “AP’s “robot journalists” are writing their own 





stories now”( 美 联 社 





的 机 器 人 记者 正在 写 自 己 的 报道 )。 
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中 ， 前 者 保持 了 优势 地 位 ， 但 是 在 像 社交 网 络 这 类 场景 下 并 非 如 此 。 据 估计 ， 有 关 2016 年 美国 
总 统 大 选 的 推 文中 有 20% 由 聊天 机 器 人 自动 撰写 而 成 。 这 些 机 器 人 放大 了 它们 的 所 有 者 或 开发 
者 的 观点 , 而 这 些 “ 倪 偏 ” 的 操纵 者 往往 是 政府 或 大 公司 , 他 们 具备 影响 主流 观点 的 资源 和 动机 。 

NLP 系统 不 仅 可 以 产生 简短 的 社交 网 络 帖子 ,还 可 以 用 来 在 亚马逊 和 其 他 网 站 撰写 很 长 的 电 
影 和 产品 评论 。 许 多 评论 都 是 NLP 流水 线 自动 产生 的 ， 尽 管 它 从 未 踏 入 过 电影 院 或 购买 过 它们 
正在 评论 的 产品 。 

Slack .IRC 甚至 客服 网 站 上 都 有 聊天 机 器 人 一 一 在 这 些 场景 中 聊天 机 器 人 必须 处 理 带 有 歧义 
的 指令 或 问题 。 配备 语 音 识别 和 生成 系统 的 聊天 机 器 人 甚至 可 以 进行 长 篇 的 对 话 , 这 些 对 话 可 以 
不 限定 目标 或 者 针对 特定 目标 而 进行 ， 一 个 特定 目标 的 例子 就 是 在 本 地 餐馆 订餐 。NLP 系统 可 
以 帮 一 些 公司 进行 电话 回复 , 这 些 公司 希望 系统 比 层 层 进 入 的 电话 树 更 好 用 , 并 且 不 希望 给 帮助 
客户 的 客服 人 员 付费 。 


注意 谷歌 IO 大 会 上 对 Duplex 系统 的 演示 表明 , 工程 师 和 经 理 们 都 忽视 了 教导 聊天 机 器 人 欺骗 人 类 
这 一 道德 问题 。 当 人 们 在 Twitter 和 其 他 匿名 社交 网 络 上 愉快 地 与 聊天 机 器 人 交流 时 ， 大 家 都 忽略 了 
这 个 难题 ， 因 为 在 这 些 社交 网 络 上 ， 机 器 人 不 会 与 我 们 分 享 它们 的 来 历 。 随 着 机 器 人 能 够 如 此 令 人 信 
服 地 其 骗 我 们 ， 人 工 智 能 的 控制 问题 ”就 迫在眉睫 了 ,《 人 类 简 史 》( Homo Deus ) ”中 尤 瓦尔 。 赫 拉 
利 (Yuval Harari ) 的 警示 性 预测 可 能 比 我 们 想象 的 来 得 更 早 。 


NLP 系统 可 以 作为 企业 的 电子 邮件 “接待 员 ” 或 管理 人 员 的 行政 助理 ， 这 些 助理 通过 电子 
Rolodex (一 种 名 片 短 的 品牌 ) 或 者 CRM ( 客户 关系 管理 系统 ) 安排 会 议 ， 记 录 概 要 细节 ， 并 代 
表 他 们 的 老板 通过 电子 邮件 与 他 人 互动 。 公 司 将 他 们 的 品牌 和 形象 交 由 NLP 系统 管理 ， 允 许 机 
需 人 执行 营销 和 消息 发 布 活动 。 更 有 甚 者 ， 一 些 缺 乏 经 验 、 胆 大 包 天 的 NLP 教科 书 作者 竟然 让 
机 器 人 在 他 们 的 书 中 撰写 若干 语句 。 关 于 这 一 点 我 们 稍 后 再 详细 讨论 。 
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当 键 人 “Good Mormn Rosa” 时 ， 计 算 机 只 会 看 到 “01000111 0110 1111 01101111…” 的 二 进 制 
串 。 如 何 编写 聊天 机 器 人 程序 来 智能 地 响应 这 个 二 进 制 流 呢 ? 一 棵 腻 套 的 条 件 树 (if...else... 语 句 ) 
是 否 可 以 检查 这 个 流 中 的 每 一 位 并 分 别 进行 处 理 呢 ?” 这 样 做 相当 于 编写 了 一 类 特定 的 称 为 有 限 
状态 机 ( finite state machine，FSM ) 的 程序 。 运 行 时 输出 新 的 符号 序列 的 FSM (如 Python 中 的 
str.translate 国 数 ) 被 称 为 有 限 状 态 转换 机 ( finite state transducer，FST )。 大 家 甚至 可 能 在 
自己 毫 不 知情 的 情况 下 已 经 建立 了 一 个 FSM。 大 家 写 过 正则 表达 式 吗 ? 它 就 是 我 们 在 下 一 节 中 
























































@ 2016 年 10 月 18 日 的 《纽约 时 报 》 2016 年 11 月 的 《MIT 科技 评论 》 
@ 谷歌 博客 在 2018 年 5 月 介绍 了 其 Duplex 系统 。 

@) 参见 维基 百科 词 条 “AI control problem”。 

@ 2017 年 3 月 10 日 WSJ 博 客 。 
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将 要 使 用 的 一 类 FSM， 同 时 它 也 给 出 了 一 种 可 能 的 NLP 方法 ， 即 基于 模式 的 方法 。 
如 果 你 决定 在 内 存 库 (数据库 ) 中 精确 搜索 完全 相同 的 位 、 字 符 或 词 串 ,， 并 使 用 其 他 人 过 去 
针对 该 语句 的 某 条 回复 ， 你 会 怎么 做 呢 ? 此 时 设想 一 下 如 果 语 句 中 存在 拼写 错误 或 变 体 该 怎么 
办 ? 这 种 情况 下 我 们 的 机 器 人 就 会 出 问题 。 并 且 , 位 流 不 是 连续 的 ,也 不 具备 容错 性 ， 它 们 要 人 么 
匹配 ， 要 么 不 匹配 ， 没 有 一 种 显而易见 的 方法 能 基于 两 个 位 流 的 含义 来 计算 它们 之 间 的 相似 性 。 
从 位 来 看 , “good” 与 “bad!” 的 相似 度 和 “good” 与 “okay” 的 相似 度 差不多 。 

但 是 , 在 给 出 更 好 的 方法 之 前 , 我 们 先 看 看 这 种 方法 的 工作 原理 。 下 面 我 们 将 构造 一 个 小 的 
正则 表达 式 来 识别 像 “Good morning Rosa” 这 样 的 问候 语 ， 并 做 出 合适 的 回复 , 我 们 将 构建 第 一 
个 微型 聊天 机 器 人 ! 






























































1.4.1 锁 的 语言 ( 正则 表达 式 ) 


令 人 惊讶 的 是 ， 不 起 眼 的 密码 锁 实际 上 是 一 台 简 单 的 语言 处 理 机 。 因 此 ， 如 果 你 对 机 械 感 
兴趣 的 话 ， 那 么 本 节 可 能 会 对 你 很 有 启发 性 。 当 然 ， 如 果 你 不 需要 机 械 的 类 比 来 帮助 理解 算法 和 
正则 表达 式 的 工作 原理 的 话 ， 那 么 可 以 跳 过 这 一 节 。 

读 完 这 部 分 后 , 你 会 对 自己 的 自行 车 密码 锁 有 新 的 看 法 。 密码 锁 当 然 不 能 阅读 和 理解 存放 在 
学 校 储 物 柜 里 的 课本 ， 但 它 可 以 理解 锁 的 语言 。 当 试图 “告诉 ” 它 一 个 “密码 ”组 合 时 ， 它 可 以 
理解 。 挂 锁 密 码 是 与 锁 语言 的 “语法 ”( 模式 ) 匹配 的 任何 符号 序列 。 更 重要 的 是 ， 挂 锁 可 以 判 
断 锁 “语句 ”是 否 匹 配 一 条 特别 有 意义 的 语句 ， 该 语句 只 有 一 条 正确 的 “回复 ": 松 开 TU 形 搭 扣 
的 扣 环 ， 这 样 就 可 以 进入 锁 柜 了 。 

这 种 锁 语言 (正则 表达 式 ) 特别 简单 , 但 它 又 不 那么 简单 ,我 们 在 聊天 机 器 人 中 还 不 能 使 用 
它 。 我 们 倒是 可 以 用 它 来 识别 关键 短语 或 指令 来 解锁 特定 的 动作 或 行为 。 

例如 ， 我们 希望 聊天 机 器 人 能 够 识别 诸如 “Hello Rosa” 之 类 的 问候 语 ， 并 做 出 合适 的 回复 。 
这 种 语言 就 像 锁 语言 一 样 , 是 一 种 形式 语言 , 这 是 因为 它 对 如 何 编写 和 解释 一 条 可 接受 的 语句 有 
着 严格 的 规定 。 如 果 大 家 写 过 数学 公式 或 者 编写 过 某 种 编程 语言 的 表达 式 , 那么 就 算 已 经 写 过 某 
个 形式 语言 的 语句 了 。 

形式 语言 是 自然 语言 的 子 集 。 很 多 自然 语言 中 的 语句 都 可 以 用 形式 语言 的 语法 ( 如 正则 表达 式 ) 
来 匹配 或 者 生成 。 这 就 是 这 里 转 而 介绍 机 械 的 “ 味 哮 一 一 呼啦 ”(“click, whirr”)“ 锁 语言 的 原因 。 





























































































































1.4.2 ”正则 表达 式 


正则 表达 式 使 用 了 一 类 特殊 的 称 为 正则 语法 (regular grammar )“ 的 形式 语言 语法 。 正 则 

















@ 密码 锁 是 锁 的 一 种 ， 开 启 时 用 的 是 一 系列 的 数字 或 符号 。( 摘自 维基 百科 ) 一 一 译 者 注 
@ Cialdini 在 他 的 畅销 书 《 影 响 力 》( Influence ) 中 提出 了 6 条 心理 学 原则 。 
@ 正则 语法 、 上 下 文 无 关 、 有 关 语 法 中 的 语法 也 常常 称 为 文法 。 译 者 注 
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语法 的 行为 可 预测 也 可 证 明 ， 而 且 足 够 灵活 ， 可 以 文 持 市 面 上 一 些 最 复杂 的 对 话 引 擎 和 聊天 
机 器 人 。Amazon Alexa 和 Google Now 都 是 依赖 正则 语法 的 主要 基于 模式 的 对 话 引 擎 。 深 奥 、 
复杂 的 正则 语法 规则 通常 可 以 用 一 行 称 为 正则 表达 式 的 代码 来 表示 。Python 中 有 一 些 成 功 的 
聊天 机 器 人 框架 , 如 Will, 它们 完全 依赖 这 种 语言 来 产生 一 些 有 用 的 和 有 趣 的 行为 Amazon 
Echo 、Google Home 和 类 似 的 复杂 而 又 有 用 的 助手 也 都 使 用 了 这 种 语言 ， 为 大 部 分 用 户 交 互 
提供 编码 逻辑 。 


注意 在 Python 和 Posix (Unix ) 应 用 程序 (如 grep ) 中 实现 的 正则 表达 式 并 不 是 真正 的 正则 语 
法 。 它 们 具有 一 些 语言 和 慑 辑 特性 ， 如 前 向 环视 (look-ahead ) 和 后 向 环视 (look-back )， 这 些 特性 
可 以 实现 座 辑 和 说 归 的 跳跃 ,但 是 这 在 正则 语法 中 是 不 允许 的 。 因 此 ， 上 述 正 则 表达 式 无 法 保证 一 
定 可 以 停机 ( 即 在 有 限 的 时 间 内 结束 ); 它们 有 时 会 “崩溃 "， 有 时 却 会 永远 运行 下 去 。 


大 家 可 能 会 吐 咕 :“ 我 听 说 过 正则 表达 式 ， 我 使 用 grep ， 但 那 只 是 用 来 搜索 而 已 !” 你 确实 
是 对 的 , 正则 表达 式 确实 主要 用 于 搜索 和 序列 匹配 。 但 是 任何 可 以 在 文本 中 查找 匹配 的 方法 都 非 
常 适合 用 于 对 话 。 一 些 聊天 机 器 人 ， 如 Wil1， 对 于 知道 如 何 回复 的 语句 ， 会 使 用 搜索 方式 在 用 
户 语句 中 查找 字符 序列 。 然 后 , 这 些 识别 出 的 序列 会 触发 一 段 事先 准备 好 的 回复 ,该 回复 满足 这 
个 特定 正则 表达 式 的 匹配 。 同 样 的 正则 表达 式 也 可 以 用 来 从 语句 中 提取 有 用 的 信息 。 聊 天 机 器 人 
可 以 把 这 些 信息 添加 到 知识 库 中 ， 而 该 知识 库 收集 了 有 关 用 户 或 者 用 户 所 描述 世界 的 知识 。 

处 理 这 种 语言 的 机 器 可 以 被 看 作 是 一 个 形式 
化 的 数学 对 象 ， 称 为 有 限 状 态 机 (FSM ) 或 确定 
性 有 限 自 动机 ( deterministic finite antomation ， 
DFA )。FSM 会 在 本 书 中 反复 出 现 ， 因 此 ， 不 用 深 组 合 轴 辑 
人 研究 FSM 背后 的 理论 和 数学 ， 我们 最 终 都 会 对 有 限 状态 机 
它 的 用 途 很 有 感觉 。 对 于 那些 忍 不 住 想 进 一 步 了 
解 这 些 计算 机 科学 工具 的 读者 来 说 ,图 1-1 显示 
了 FSM 在 “ 栎 套 ” 的 自动 机 (bots ) 世界 中 所 处 
的 位 置 。 下 面 的 “形式 语言 的 形式 数学 解释 ”部 
分 给 出 了 一 些 关 于 形式 语言 的 更 正式 的 细节 。 


形式 语言 的 形式 数学 解释 
凯 尔 。 戈 尔 曼 ( Kyle Gorman ) 对 编程 语言 是 像 下 面 这 样 描 述 的 。 
加 ”大 多 数 ( 如 果 不 是 所 有 的 ) 编程 语言 都 来 自 上 下 文 无 关 语 言 这 一 类 。 
国 上下文 无 关 语言 使 用 上 下 文 无 关 语 法 进行 高 效 的 解析 。 
国正 则 语言 也 可 以 有 效 地 进行 解析 ， 并 广泛 用 于 字符 串 匹 配 的 计算 中 。 
四 ”字符 串 匹 配 应 用 程序 基本 不 需要 上 下 文 无 关 的 表达 能 力 。 


























、 下 推 自动 机 








图 1-1 自动 机 的 类 型 



















































































2016 年 7 月 20 日 ,由 于 某 个 正则 表达 式 “ 骨 溃 ”导致 Stack Exchange 宕 机 了 30 分 钟 。 
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国有 许多 类 型 的 形式 语言 ， 下 面 给 出 了 其 中 的 一 些 ( 按 复杂 性 从 高 到 低 排列 ) *: 
9 递归 可 枚 举 的 ; 




















儿 上 下 文 有 关 的 
”上 下 文 无 关 的 
”正则 。 








而 对 自然 语言 是 像 下 面 这 样 描述 的 。 
加 ”不 是 正则 的 。" 
国 ”不 是 上 下 文 无 关 的 。 
量 ”用 任何 形式 语法 都 无 法 定义 。" 
a 参考 标题 为 “Chomsky hierarchy - Wikipedia” 的 网 页 。 
b 参考 Shuly Wintner 的 文章 “English is not a regular language”。 
Cc 参考 Shuly Wintner 的 文章 “Is English context-free?”。 
d 参考 标题 为 “1.11. Formal and Natural Languages 一 How to Think like a Computer Scientist: Interactive 


Edition” 的 网 页 。 












































1.4.3 一 个 简单 的 聊天 机 器 人 

下 面 我 们 快速 粗略 地 构建 一 个 聊天 机 器 人 。 这 个 机 器 人 能 力 不 是 很 强 , 但 是 仍然 需要 大 量 对 
英语 这 门 语言 的 思考 。 我 们 还 必须 手工 编写 正则 表达 式 ， 以 匹配 人 们 可 能 的 说 话 方式 。 但 是 , 大 
家 如 果 觉 得 自己 无 法 编写 出 这 段 Python 代码 的 话 ， 也 不 要 担心 。 大 家 不 需要 像 本 示例 一 样 考虑 
人 们 说 话 的 所 有 不 同方 式 , 甚至 不 需要 编写 正则 表达 式 来 构建 一 个 出 色 的 聊天 机 器 人 。 我 们 将 在 
后 面 的 章节 中 介绍 如 何在 不 硬 编码 任何 内 容 的 情况 下 构建 自己 的 聊天 机 器 人 。 现 代 聊 天 机 器 人 可 
以 通过 阅读 (处理 ) 一 堆 英 语文 本 来 学 习 ， 后 面 的 章节 中 会 给 出 具体 的 做 法 。 

这 种 基于 模式 匹配 的 聊天 机 器 人 是 严格 受 控 的 聊天 机 器 人 的 一 个 例子 。 在 基于 现代 机 需 学 习 
的 聊天 机 器 人 技术 发 展 之 前 , 基于 模式 匹配 的 聊天 机 器 人 十 分 普遍 。 我 们 在 这 里 介绍 的 模式 匹配 
方法 的 一 个 变 体 被 用 于 像 亚马逊 的 Alexa 一 样 的 聊天 机 器 人 和 其 他 虚拟 助手 中 。 

现在 我 们 来 构建 一 个 FSM， 也 就 是 一 个 可 以 “说 ” 锁 语 言 ( 正则 语言 ) 的 正则 表达 式 。 我 
们 可 以 通过 编程 来 理解 诸如 “01-02-03” 这 样 的 锁 语 言语 句 。 更 好 的 一 点 是 ， 我 们 希望 它 能 理解 
诸如 “open sesame”( 芝麻 开门 ) 或 “hello Rosa”( Rosa 你 好 ) 之 类 的 问候 语 。 亲 社会 聊天 机 器 
人 的 一 个 重要 特点 是 能 够 回复 别人 的 问候 。 在 高 中 , 老师 经 常 因为 学 生 在 冲 进 教室 上 课时 忽略 这 
样 的 问候 语 而 责备 其 不 太 礼 狐 。 我 们 当然 不 希望 我 们 这 个 亲切 的 聊天 机 器 人 也 这 样 。 

在 机 器 通信 协议 中 , 我 们 定义 了 一 个 简单 的 握手 协议 , 每 条 消息 在 两 台 机 器 之 间 来 回 传递 之 
后 , 都 有 一 个 ACK (确认 ) 信和 号。 但 是 , 我 们 这 里 的 机 器 将 会 和 那些 说 “Good morning, Rosa”( Rosa 
早上 好 ) 之 类 的 用 户 进行 互动 。 我 们 不 希望 它 像 对 话 或 Web 浏览 会 话 开 始 时 同步 调制 解 调 咒 或 
HTTP 连接 而 发 出 一 串 哪 哪 声 、 哗 哗 声 或 ACK 消息 , 相反 , 我 们 在 对 话 握手 开始 时 使 用 正则 表达 
式 来 识别 几 种 不 同 的 问候 语 : 
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Python 中 有 两 个 “官方 ”的 正则 表达 式 包 ， 这 里 使 用 的 
是 re 包 ， 因 为 它 安装 在 所 有 版 本 的 Python 中 。 而 regex 
包 只 在 较 新 版 本 的 Python 中 安装 , 我 们 将 会 在 第 2 章 看 
到 ， 与 re 相 比 ，regex 的 功能 要 强大 很 多 




















自 








>>> import re 
>>> r = "(hi|lhellolhey)[ ]*([a-z]j*)" 
>>> re.match(r, "Hello Rosa', flags=re.IGNORECASE 


<_sre.SRE Match object; span=(0, 10), match='Hello Rosa'> 

>>> re.match(r, "hi ho, hi ho it's off to work ..." flags=re.IGNORECASE) 

<_sre.SRE Match object; span=(0, 5), match='hi ho'> 

>>> re.match(r, "hey what's up", flags=re.IGNORECASE) 为 使 正则 表达 式 更 简 

<_sre.SRE Match object; span=(0, 3), match='hey> 单 ， 通 常 忽略 文本 字 
符 的 大 小 写 


' 1' 表 示 “OR”,，'\*' 表 示 前 面 的 字符 在 
出 现 0 次 或 多 次 的 情况 下 都 可 以 匹配 。 
此 ,这 里 的 正则 表达 式 将 匹配 以 “hi”“hello” 
或 “hey” 开 头 、 后 面 跟着 任意 数量 的 空格 
字符 再 加 上 任意 数量 字母 的 问候 语 


< 



































) Wh 











在 正则 表达 式 中 ,我们 可 以 使 用 方 括号 指定 某 个 字符 类 ， 还 可 以 使 用 短 横 线 ( - ) 来 表示 字 


符 的 范围 而 不 需要 逐个 输入 。 因 此 ， 正 则 表达 式 " [a-z]" 








第 匹配 任何 单个 小 写字 母 ， 即 “a” 到 











“z”。 字 符 类 后 面 的 星 号 ('*' ) 表示 可 以 匹配 任意 数量 的 








属于 该 字符 类 的 连续 字符 。 




















下 面 我 们 把 正则 表达 式 写 得 更 细致 一 些 ， 以 匹配 更 多 的 问候 语 : 
可 以 编译 正则 表达 式 ,这样 就 不 必 在 
每 次 使 用 它们 时 指定 选项 ( 或 标志 


]» 
,3]} 


> r"[^a-z]j*([y]ol [h']?ellolok|lhey| (good 
en r"afternoon|even[gin']{0,3})) [\s,;:]t 
>>> re_ greeting re.compilel(r, 


>>> re greeting.match('Hello Rosa') 





flags=re.IGNORECASE) 








2 


( 


(morn[lgin'] {0,3}1"\ 
a= | E20 








注意 ,这 个 正则 表达 式 无 法 
识别 (匹配 ) 录入 错误 


<_sre.SRE Match object; span=(0, 10), match='Hello Rosa'> 
>>> re greeting.match('Hello Rosa') .groups () 

('Hello', None, None, 'Rosa') 

>>> re greeting.match ("Good morning Rosa") 

<_sre.SRE Match object; span=(0, 17), match="Good 


>>> re greeting.match ("Good Manning Rosa") 





>>> re greeting.match('Good evening Rosa Parks'). 
('Good evening', 'Good ', 'evening', 'Rosa') 

>>> re greeting.match ("Good Morn'n Rosa") 
<_sre.SRE Match object; span=(0, 16), match="Good 
>>> re greeting.match ("yo Rosa") 

<_sre.SRE Match object; span=(0, 7), match='yo Ro 


这 里 的 聊天 机 器 人 可 以 将 问候 语 的 不 同 部 分 分 成 不 同 的 组 ， 
但 是 它 不 会 知道 Rosa 是 一 个 著名 的 姓 ， 


式 来 匹配 名 后 面 的 全 


前 的 “r” 指 定 的 是 一 个 原始 字符 





F 何 


已 


提示 引号 


morning Rosa"> 
< 





groups () 


Morn'n Rosa"> 


sa'> 








大 





为 这 里 没有 一 个 模 











字符 


串 ， 而 不 是 正则 表达 式 。 使 用 Python 原始 字符 串 ， 可 


以 将 反 儿 杠 直接 传递 给 正则 表达 式 编译 器 ， 无 须 在 所 有 特殊 的 正则 表达 式 字符 前 面 加 双 反 和 斜 村 


/守护 


("\\" )， 这 些 特殊 字符 


包括 空格 ("\\、" ) 和 花 括号 或 称 车 把 符 ("\\{ \\}" ) 等 。 


上 面 的 第 一 行 代码 〈 即 正则 表达 式 ) 中 包含 了 很 多 逻辑 ， 它 完成 了 令 人 惊讶 的 一 系列 问 
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候 语 ， 但 它 忽略 了 那个 “Manning” 的 录入 错误 ， 这 是 NLP 很 难 的 原因 之 一 。 在 机 器 学 习 和 
医学 诊断 中 ， 这 被 称 为 假 阴 性 ( false negative ) 分 类 错误 。 不 幸 的 是 ， 它 也 会 与 人 类 不 太 可 
能 说 的 话 相 匹配 ， 即 出 现 了 假 阳性 (false positive ) 错误 ,这 同样 也 是 一 件 糟糕 的 事情 。 假 阳 
性 和 假 阴 性 错误 的 同时 存在 意味 着 我 们 的 正则 表达 式 既 过 于 宽松 又 过 于 严格 。 这 些 错 误 可 能 
会 使 机 器 人 听 起 来 有 点 儿 迟 钝 和 机 械 化 ， 我 们 必须 做 更 多 的 努力 来 改进 匹配 的 短语 ， 使 机 器 
人 表现 得 更 像 人 类 。 
并 且 , 这 项 枯燥 的 工作 也 不 太 可 能 成 功 捕捉 到 人 们 使 用 的 所 有 倡 语 和 可 能 的 拼写 错误 。 幸 运 
的 是 ,手工 编写 正则 表达 式 并 不 是 训练 聊天 机 需 人 的 唯一 方法 。 请 继续 关注 后 面 的 内 容 ( 本 书 的 
其 余部 分 )。 因 此 ， 我 们 只 需 在 对 聊天 机 器 人 的 行为 进行 精确 控制 ( 如 在 向 手机 语音 助手 发 出 命 
令 ) 时 才 使 用 正则 表达 式 。 

下 面 我 们 继续 ,通过 添加 一 个 输出 生成 器 最 终 得 到 一 个 只 用 一 种 技巧 (正则 表达 式 ) 的 聊天 
机 器 人 。 添 加 输出 生成 器 的 原因 是 它 总 需要 说 些 什么。 下 面 我 们 使 用 Python 的 字符 串 格式 化 工 
具 构 建 聊 天 机 器 人 回复 的 模板 : 


>>> my_names = set(['rosa', 'rose', 'chatty', 'chatbot', "pot'yv 







































































Se 'chatterbot']) 

>>> curt names = set(['hal', ‘you', 'u']) 

a ets hr ie 我 们 还 不 知道 机 器 人 的 聊天 对 象 是 谁 ， 
和 性 Pe 这 里 我 们 也 不 担心 这 一 点 


SS if match : 
at name = match.groups() [-1] 
if at name in curt names: 
print ("Good one.") 
elif at name.lower() in my names: 
print ("Hi {}, How are you?".format (greeter name)) 

所 以 , 如 果 你 运行 这 一 小 段 脚 本 , 用 “Hello Rosa” 这样 的 短语 和 机 器 人 聊天 , 她 会 回答 “How 
are you”。 如 果 用 一 个 略 显 粗鲁 的 名 字 来 称呼 聊天 机 器 人 的 话 ， 她 回复 就 会 不 太 积极 ,但 也 不 会 
过 于 激动 , 而 是 试图 鼓励 用 户 用 更 礼貌 的 语言 来 交谈 。 如 果 你 指名 道 姓 地 说 出 可 能 正在 监听 某 条 
共 线 电话 或 某 个 论坛 上 的 对 话 的 人 名 ， 该 机 器 人 就 会 保持 安静 ， 并 人 允许 你 和 任何 要 找 的 人 聊天 。 
显然 这 里 并 没有 其 他 人 在 监视 我 们 的 input () 行 , 但 是 如 果 这 是 一 个 更 大 聊天 机 器 人 中 的 函数 
的 话 ， 那 么 就 需要 处 理 这 类 事情 。 

受 计算 资源 所 限 ， 早 期 的 NLP 研究 人 员 不 得 不 使 用 人 类 大 脑 的 计算 能 力 来 设计 和 手动 调整 
复杂 的 逻辑 规则 来 从 自然 语言 字符 串 中 提取 信息 。 这 称 为 基于 模式 ( pattern ) 的 NLP 方法 。 这些 
模式 就 像 正则 表达 式 那 样 ， 可 以 不 仅仅 是 字符 序列 模式 。NLP 还 经 常 涉及 词 序列 、 词 性 或 其 他 高 
级 的 模式 。 核 心 的 NLP 构建 模块 ( 如 词 干 还 原 工具 和 分 词 器 ) 以 及 复杂 的 端 到 端 NLP 对 话 引擎 
(聊天 机 器 人 )( 如 ELIZA ) 都 是 通过 这 种 方式 ， 即 基于 正则 表达 式 和 模式 匹配 来 构建 的 。 基 于 模 
式 匹 配 NLP 方法 的 艺术 技巧 在 于 ,使 用 优雅 的 模式 来 获得 想 要 的 内 容 ， 而 不 需要 太 多 的 正则 表 
达 式 代码 行 。 
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经 典 心智 计算 理论 ”这 种 经 典 的 NLP 模式 匹配 方法 是 建立 在 心智 计算 理论 (computional theory of 
mind，CTM ) 的 基础 上 的 。CTM 假设 类 人 NLP 可 以 通过 一 系列 处 理 的 有 限 座 辑 规则 集 来 完成 。 在 
世纪 之 交 ， 神 经 科学 和 NLP 的 进步 导致 了 心智 “连接 主义 ”理论 的 发 展 ， 该 理论 允许 并 行 流水 线 
同时 处 理 自然 语言 ， 就 像 在 人 工 神 经 网 络 中 所 做 的 那样 。 


在 第 2 章 中 , 我 们 将 学 习 更 多 基于 模式 的 方法 , 例如 , 用 于 词 干 还 原 的 Porter 工具 和 用 于 分 词 
的 Treebank 分 词 顺 。 但 是 在 后 面 的 章节 中 ， 我 们 会 利用 现代 计算 资源 以 及 更 大 的 数据 集 ， 来 简化 
这 种 费力 的 手工 编码 和 调 优 。 

如 果 大 家 新 接触 正则 表达 式 ， 想 了 解 更 多 ,那么 可 以 查看 附录 B 或 Python 正则 表达 式 的 
在 线 文 档 。 但 现在 还 不 需要 去 理解 它们 ， 我 们 将 利用 正则 表达 式 构 建 NLP 流水 线 ， 并 提供 相 
关 示 例 。 因 此 ， 大 家 不 要 担心 它们 看 起 来 像 是 胡言 乱 语 。 人 类 的 大 脑 非常 善于 从 一 组 例子 中 进 
行 归纳 总 结 ， 我 相信 在 本 书 的 最 后 这 一 切 都 会 变 得 清晰 起 来 。 事 实证 明 ， 机 器 也 可 以 通过 这 种 
方式 学 习 。 



























































1.4.4 ” 另 一 种 方法 


有 没有 一 种 统计 或 机 器 学 习 方 法 可 以 替代 上 面 基于 模式 的 方法 ”如果 有 足够 的 数据 , 我 们 能 
否 做 一 些 不 一 样 的 事情 ?如 果 我 们 有 一 个 巨大 的 数据 库 , 该 数据 库 由 数 千 甚至 上 百 万 人 类 的 对 话 
数据 构成 ,这些 数据 包括 用 户 所 说 的 语句 和 回复 , 那 又 会 怎么 样 呢 ? 构建 聊天 机 需 人 的 一 种 方法 
是 ,在 数据 库 中 搜索 与 用 户 对 聊天 机 器 人 刚刚 “说 过 ”的 话 完全 相同 的 字符 串 。 难 道 我 们 就 不 能 
用 其 他 人 过 去 说 过 的 话 作为 回复 吗 ? 

但 是 想象 一 下 ， 如 果 语 句 中 出 现 一 个 书写 错误 或 变异 , 会 给 机 器 人 带 来 多 大 的 麻烦 。 位 和 字 
符 序列 都 是 离散 的 。 它 们 要 么 匹配 ， 要 人 么 不 匹配 。 然 而 ,我 们 希望 机 器 人 能 够 度量 字符 序列 之 间 
的 意义 差异 。 

当 使 用 字符 序列 匹配 来 度量 自然 语言 短语 之 间 的 距离 时 , 我 们 经 常会 出 错 。 具 有 相似 含义 的 
短语 ， 如 good 和 okay， 通 常会 有 不 同 的 字符 序列 ， 当 我 们 通过 清点 逐个 字符 的 匹配 总 数 来 计算 
距离 时 ， 它 们 会 得 到 较 大 的 距离 。 而 对 于 具有 完全 不 同 含义 的 序列 ， 如 bad 和 bar， 当 我 们 使 用 
数值 序列 间 的 距离 计算 方法 来 度量 它们 的 距离 时 ， 可 能 会 得 到 过 于 接近 的 结果 。 像 杰 卡 德 距离 
( Jaccard distance )、 莱 文 斯 坦 距离 (Levenshtein distance ) 和 欧 几 里 得 距离 (Euclidean distance ) 
这 样 的 计算 方法 有 时 可 以 为 结果 添加 足够 的 “模糊 性 ”， 以 防止 聊天 机 器 人 犯 微小 的 拼写 错误 。 
但 是 ， 当 两 个 字符 串 不 相似 时 ， 这些 度量 方法 无 法 捕捉 它们 之 间 关 系 的 本 质 。 它 们 有 时 也 会 把 拼 
写 上 存在 小 差异 的 词 紧密 联系 在 一 起 , 而 这 些小 差异 可 能 并 不 是 真正 的 拼写 错误 ,如 bad 和 bar。 

为 数值 序列 和 向 量 设计 的 距离 度量 方法 对 一 些 NLP 应 用 程序 来 说 非常 有 用 ， 如 拼写 校正 屁 
和 专 有 名 词 识 别 程序 。 所 以 ， 当 这 些 距 离 度量 方法 有 意义 时 ,我 们 使 用 这 些 方法 。 但是， 针对 那 
些 我 们 对 自然 语言 的 含义 比 对 拼写 更 感 兴趣 的 NLP 应 用 程序 来 说 ， 有 更 好 的 方法 。 对 于 这 些 NLP 
应 用 程序 ,我 们 使 用 自然 语言 词 和 文本 的 向 量 表示 以 及 这 些 向 量 的 一 些 距离 度量 方法 。 下面 , 我 










































































































































































异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 








1.4 计算机“ 眼 ” 中 的 语言 15 


们 一 方面 讨论 这 些 不 同 的 向 量 表示 以 及 它们 的 应 用 ， 另 一 方面 我 们 将 逐一 向 读者 介绍 每 种 方法 。 

我 们 不 会 在 这 个 令 人 困惑 的 二 进 制 逻辑 世界 里 符 太 和 久 , 但 是 可 以 想象 一 下 , 我 们 是 第 二 次 世 
界 大 战 时 期 著名 的 密码 破译 员 玛 维 斯 . 贝 特 (Mavis Batey )， 我 们 在 布 莱 切 利 公园 ( Bletchley Park ) 
刚刚 收 到 了 从 两 名 德国 军官 之 间 的 通信 中 截获 的 二 进 制 莫 尔 斯 码 (Morse code ) 消息 。 它 可 能 是 
万 得 战争 的 关键 。 那 么 我 们 从 哪里 开始 呢 ? 我 们 分 析 的 第 一 步 是 对 这 些 位 流 做 一 些 统计 ， 看 看 是 否 
能 找到 规律 。 我 们 可 以 首先 使 用 莫 尔 斯 码 表 (或 者 在 我 们 的 例子 中 使 用 ASCII 表 ) 为 每 组 位 分 配 字 
母 。 然 后 ， 如 果 字 符 看 上 去 胡言 乱 语 也 不 奇怪 ， 因 为 它们 是 提交 给 二 战 中 的 计算 机 或 译 码 机 的 字 
符 。 我 们 可 以 开始 计数 、 在 字典 中 查找 短 序列 ， 这 部 字典 收集 了 所 有 我 们 以 前 见 过 的 词 ， 每 次 查 
到 序列 就 在 字典 中 的 该 条 目 旁边 做 一 个 标记 。 我 们 还 可 以 在 其 他 记录 本 中 做 一 个 标记 来 标明 词 出 
现在 哪 条 消息 中 ， 并 为 以 前 读 过 的 所 有 文档 创建 百科 全 书 式 的 索引 。 这 个 文档 集合 称 为 语料库 
(corpus )， 索 引 中 列 出 的 词 或 序列 的 集合 称 为 词 库 (lexicon )。 

如 果 我 们 足够 幸运 ， 没 有 生活 在 战争 年 代 ， 所 看 到 的 消息 没有 经 过 严格 加 密 ， 那 么 我 们 
将 在 上 述 德语 词 计数 中 看 到 与 用 于 交流 类 似 消 息 的 英语 词 计数 相同 的 模式 。 不 像 密码 学 家 试 
图 破译 截获 的 德语 莫 尔 斯 码 ， 我 们 知道 这 些 符 号 的 含义 是 一 致 的 ， 不 会 随 着 每 次 键 点 击 而 改 
变 以 迷惑 我 们 。 这 种 枯燥 的 字符 和 词 计 数 正 是 计算 机 无 须 思考 就 能 做 的 事情 。 令 人 惊讶 的 是 ， 
这 几乎 足以 让 机 器 看 起 来 能 理解 我 们 的 语言 。 它 甚至 可 以 对 这 些 统计 向 量 进行 数学 运算 ， 这 
些 向 量 与 我 们 人 类 对 这 些 短语 和 词 的 理解 相 吻 合 。 当 我 们 在 后 面 的 章节 中 介绍 如 何 使 用 
Word2vec 来 教 机 器 学 习 我 们 的 语言 时 ， 它 可 能 看 起 来 很 神奇 ， 但 事实 并 非 如 此 ， 这 只 是 数学 
和 计算 而 已 。 

但 是 我 们 想 一 下 , 刚才 在 努力 统计 收 到 消息 中 的 词 信息 时 , 我 们 到 底 丢 失 了 哪些 信息 ? 我 们 
将 词 装 箱 并 将 它们 存储 为 位 向 量 ， 就 像 硬币 或 词 条 分 拣 机 一 样 ,后 者 将 不 同 种 类 的 词 条 定向 到 一 
边 或 男 一 边 , 形成 一 个 级 联 决策 , 将 它们 堆积 在 底部 的 箱子 中 。 我 们 的 分 拣 机 必须 考虑 数 十 万 种 
( 即使 不 是 数 百 万 种 的 话 ) 可 能 的 词 条 “面额 "*， 每 种 面额 对 应 说 话 人 或 作家 可 能 使 用 的 一 个 词 。 
我 们 将 每 个 短语 、 句 子 或 文档 输入 词 条 分 拣 机 ， 其 底部 都 会 出 来 一 个 向 量 , 向 量 的 每 个 覃 中 都 有 
词 条 的 计数 值 。 其 中 的 大 多 数 计数 值 都 为 零 ， 即 使 对 于 宛 长 的 大 型 文档 也 是 如 此 。 但 是 目前 为 目 
我 们 还 没有 丢失 任何 词 , 那么 我 们 到 底 丢 失 了 什么 ?大 家 能 否 理解 以 这 种 方式 呈现 出 的 文档 ?也 
就 是 说 ,把 语言 中 每 个 词 的 计数 值 呈现 出 来 ,而 不 把 它们 按照 任何 序列 或 顺序 排列 。 我 对 此 表示 
怀疑 。 当 然 ， 如 果 只 是 一 个 简短 的 句子 或 推 文 , 那么 可 能 在 大 多 数 情况 下 我 们 都 能 把 它们 重新 排 
列 成 其 原始 或 期 望 的 顺序 和 意义 。 

下 面 给 出 的 是 在 NLP 流水 线 中 如 何在 分 词 器 〈 见 第 2 章 ) 之 后 加 入 词 条 分 拣 机 的 过 程 。 这 
里 的 词 条 分 拱 机 草图 中 包含 了 一 个 停 用 词 过 滤器 和 一 个 罕见 词 过 滤器 。 字符 串 从 顶部 流入 , 词 袋 
向 量 从 底部 词 条 栈 中 词 条 的 高 低 堆 县 中 创建 。 

事实 证 明 , 机 咒 可 以 很 好 地 处 理 这 种 词 袋 , 通过 这 种 方式 能 够 收集 即便 是 中 等 长 度 的 文档 的 
大 部 分 信息 内 容 。 在 词 条 排序 和 计数 之 后 ,每 篇 文档 都 可 以 表示 为 一 个 向 量 ， 即 该 文档 中 每 个 词 
或 词 条 的 整数 序列 。 图 1-2 中 给 出 了 一 个 粗略 的 示例 ， 后面 在 第 2 章 会 给 出 词 袋 向 量 的 一 些 更 有 
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用 的 数据 结构 。 
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图 


词 袋 向 量 








[3, 1, 4, 8, 9, 0,,] 


1-2 ” 词 条 分 拣 托盘 





这 是 我 们 给 出 的 语言 的 第 一 个 向 量 空 间 模型 。 这些 栈 和 它们 包含 的 每 个 词 的 数目 被 表示 成 一 
个 长 向 量 , 该 向 量 包含 了 许多 0、 一 些 1 或 2， 这 些 数 字 散 落 在 词 所 属 栈 出 现 的 位 置 。 这 些 词 的 





所 有 组 合 方式 构成 的 向 量 称 为 向 量 空间 。 


该 空间 中 向 量 之 间 的 关系 构成 了 我 们 的 模型 , 这 个 模型 


异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 





1.5” 超 空间 简 述 17 











试图 预测 这 些 词 出 现在 各 种 不 同 的 词 序 列 (通常 是 句子 或 文档 ) 集合 中 的 组 合 。 在 Python 中 ， 
我 们 可 以 将 这 些 稀 琉 的 〈 大 部 分 元 素 都 为 空 ) 向 量 (数值 列表 ) 表示 为 字典 。Python 中 的 Counter 
是 一 种 特殊 的 字典 ， 它 存储 对 象 ( 包括 字符 串 )， 并 按 我 们 想 要 的 方式 为 对 象 计数 : 


>>> from Collections import Counter 





























>>> Counter ("Guten Morgen Rosa".split()) 
Counter({'Guten': 1, 'Rosa': 1, 'morgen': 1}) 
>>> Counter ("Good morning, Rosa!".split()) 
Counter({Good's lL "Rosal"s Lr "mormingr :Ll}) 


大 家 可 能 会 想到 一 些 分 拣 这 些 词 条 的 方法 ,我 们 会 在 第 2 章 中 实现 这 一 点 。 大 家 也 可 能 会 想 ， 
这 些 稀 玻 高 维 向 量 (许多 栈 ， 每 个 可 能 的 词 对 应 一 个 栈 ) 对 语言 处 理 不 是 很 有 用 。 但 是 对 于 一 些 
引起 行业 变革 的 工具 ， 如 我 们 将 在 第 3 章 中 讨论 的 垃圾 短信 过 滤器 ， 它 们 已 经 足够 好 用 了 。 

可 以 想象 ， 我 们 把 能 找到 的 所 有 文档 、 语 句 、 名 子 甚 至 单个 词 ， 一 个 一 个 地 输 到 这 人 台 机 器 。 
我 们 会 在 每 个 语句 处 理 完 之 后 ,对 底部 每 个 模 中 的 词 条 计数 , 我 们 称 之 为 该 语句 的 向 量 表示 。 机 
器 以 这 种 方式 产生 的 所 有 可 能 的 向 量 称 为 向 量 空间 。 这 种 表示 文档 、 语 句 和 词 的 模型 称 为 向 量 空 
间 模 型 。 它 允许 我 们 使 用 线性 代数 来 对 这 些 向 量 进行 运算 ,计算 距离 和 自然 语言 语句 的 统计 信息 ， 
这 些 信息 有 助 于 我 们 用 更 少 的 人 工 编码 来 解决 更 广泛 的 问题 , 同时 也 使 得 NLP 流水 线 更 加 强大 。 

一 个 关于 词 袋 向 量 序列 的 统计 学 问题 是 ， 在 特定 的 词 袋 下 最 可 能 出 现 的 词组 合 是 什么 ? 或 
者 ,更 进一步 ， 如果 用 户 输入 一 个 词 序列 , 那么 数据 库 中 最 接近 用 户 提供 的 词 袋 向 量 的 词 袋 是 什 
么 ? 这 其 实 是 一 个 搜索 查询 。 输 入 词 是 用 户 可 能 在 搜索 框 中 键入 的 词 ， 最 接近 的 词 袋 向 量 对 应 于 
要 查找 的 目标 文档 或 网 页 。 高 效 回答 上 述 两 个 问题 的 能 力 足 以 构建 一 个 机 器 学 习 聊 天 机 器 人 , 随 
着 我 们 给 它 提供 的 数据 越 来 越 多 ， 它 也 会 变 得 越 来 越 好 。 

但 是 等 一 下 ,也许 这 些 向 量 不 像 大 家 以 前 用 过 的 任何 向 量 。 它 们 的 维度 非常 高 。 从 一 个 大 型 
语料库 中 得 到 的 3-gram 词汇 表 可 能 有 数 百 万 个 维度 。 在 第 3 章 中 ,我 们 将 讨论 “ 维 数 灾 难 ” 和 
高 维 向 量 难以 处 理 的 其 他 一 些 性 质 。 
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在 第 3 章 中 , 我 们 将 介绍 如 何 将 词 合并 到 更 小 的 向 量 维 数 中 ,以 缓解 维 数 灾难 问题 ， 并 可 能 
为 我 所 用 。 当 将 这 些 向 量 相互 投影 以 确定 向 量 对 之 间 的 距离 时 , 这 将 是 对 它们 语义 相似 性 而 不 是 
统计 性 词 用 法 的 合理 估计 。 这 个 向 量 距离 度量 方法 称 为 余弦 距离 ,我们 会 在 第 3 章 中 讨论 这 一 距 
离 , 然后 在 第 4 章 中 展示 它 在 降 维 后 的 主题 向 量 上 的 真正 威力 。 我 们 甚至 可 以 将 这 些 向 量 投影 到 
二 维 平面 上 (更 准确 的 说 法 是 铭 入 )， 以 便 在 图 表 中 对 它们 进行 观察 ， 看 看 我 们 的 大 脑 是 否 能 从 
中 找到 某 些 模式 。 然后, 我们 可 以 教 计算 机 识别 这 些 模 式 , 并 以 反映 产生 这 些 向 量 的 词 的 隐 性 仿 
义 的 方式 对 其 进行 处 理 。 

想象 一 个 人 类 可 能 会 写 的 所 有 推 文 、 消 息 或 句子 。 尽 管 我 们 确实 会 不 断 重 复 自 己 写 过 的 东西 ， 
但 仍然 有 太 多 的 可 能 性 。 当 这 些 词 条 分 别 被 视 为 单独 的 、 不 同 的 维度 时 ， 我 们 并 不 知道 “Good 
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morning, Hobs” 与 “Guten Morgen, Hannes” 其 实 具 有 相同 的 含义 。 我 们 需要 为 消息 创建 一 些 降 
维 的 向 量 空间 模型 ， 这 样 就 可 以 用 一 组 连续 〈 泽 点 ) 值 来 标记 它们 。 我 们 可 以 根据 主题 和 情感 等 


寺 点 对 消息 和 文字 进行 评级 。 这 样 ， 我 们 就 可 以 问 下 面 这 样 的 问题 : 

国 这 条 消息 有 多 大 可 能 成 为 一 个 被 提问 的 问题 ? 

这 条 消息 有 多 大 可 能 是 和 人 有 关 的 ? 

这 条 消息 有 多 大 可 能 是 关于 我 自己 的 ? 

这 条 消息 听 起 来 愤怒 或 高 兴 的 程度 有 多 高 ? 
这 个 问题 是 否 需 要 我 做 出 回复 ? 

想 想 我 们 能 赋予 语句 的 所 有 评级 , 我 们 可 以 把 这 些 评 级 按 顺序 排列 , 然后 为 每 条 语句 计算 评 
级 ,从 而 为 每 条 语句 生成 一 个 向 量 。 我 们 能 为 一 组 语句 给 出 的 评级 列表 或 维度 应 该 比 可 能 的 语句 
数量 小 得 多 。 对 于 上 述 所 有 的 问题 ， 意 义 相 同 的 语句 应 该 有 相似 的 分 值 。 

这 些 评级 向 量变 成 了 机 器 可 以 编程 进行 回复 的 对 象 。 我 们 可 以 通过 对 语句 聚 类 ( 聚集 
步 简 化 和 泛 化 向 量 ， 使 它们 在 某 些 维度 上 接近 ， 而 在 其 他 维度 上 不 接近 。 

但 是 , 计算 机 应 该 如 何 为 这 些 向 量 的 每 一 个 维度 赋值 呢 ? 我们 把 向 量 维 度 的 问题 简化 成 “ 它 
包含 good 这 个 词 吗 ??”“ 它 包含 morning 这 个 词 吗 ?” 等 问题 。 我 们 可 以 看 到 ， 这 里 可 以 提出 100 
万 个 左右 的 问题 , 这 就 是 计算 机 可 以 分 配给 一 个 短语 的 数值 范围 。 这 是 第 一 个 实际 的 向 量 空间 模 
型 ， 称 为 位 向 量 语言 模型 ， 或 者 说 是 独 热 编码 向 量 的 求 和 结果 。 我 们 可 以 看 到 ,为 什么 计算 机 现 
在 变 得 越 来 越 强大 , 足以 理解 自然 语言 。 人 类 简单 生成 的 数 百 万 个 百 万 维 向 量 , 在 20 世纪 80 年 
代 的 超级 计算 机 上 根本 无 法 计算 ， 但 在 21 世纪 的 普通 笔记 本 电脑 上 计算 则 没有 任何 问题 。 不 仅 
仅 是 原始 硬件 的 功率 和 容量 导致 NLP 越 来 越 实 用 ， 增 长 的 常数 内 存 、 线 性 代数 算法 是 机 器 破解 
自然 语言 编码 的 最 后 一 块 “拼图 ”。 

还 有 一 个 更 简单 但 更 大 的 表示 法 可 以 用 于 聊天 机 器 人 。 如 果 我 们 的 向 量 维度 完全 描述 了 字符 
的 精确 序列 会 怎样 ? 它 会 包含 下 面 这 些 问 题 的 答案 , 如 “第 一 个 字母 是 A 吗 ? 是 B 吗 ? ……: ”“ 第 
二 个 字母 是 A 吗 ? ”等 。 这 个 向 量 的 优点 是 ， 它 保留 了 原始 文本 中 包含 的 所 有 信息 ， 包 括 字 符 
和 词 的 顺序 。 想 象 一 下 ， 一 架 钢琴 一 次 只 能 演奏 一 个 音符 ， 它 可 以 演奏 52 个 或 更 多 的 音符 。 自 
然 语 言 机 械 钢 琴 的 音符 是 26 个 大 写字 母 、26 个 小 写字 母 再 加 上 钢琴 必须 知道 如 何 演 奏 的 任何 标 
点 符号 。 钢琴 纸 卷 不 会 比 真正 的 钢琴 宽 很 多 , 而 且 一 些 长 钢琴 曲 中 的 音符 数量 不 会 超过 一 个 小 文 
档 中 的 字符 数量 。 但是, 这 种 独 热 字 符 序列 编码 表示 法 主要 用 于 精确 记录 和 重 放 原 始 片段 ,而 非 
编写 新 内 容 或 提取 一 件 作 品 的 精髓 。 在 这 种 表示 法 下 , 我 们 不 太 容 易 将 某 一 首 歌 的 钢琴 纸 卷 与 男 
一 首 歌 的 相 比 。 这 个 表示 比 文档 的 原始 ASCII 编码 表示 还 要 长 。 为 了 保留 每 个 字符 序列 的 信息 ， 
文档 表示 的 可 能 数量 会 爆炸 。 这 里 ， 我 们 虽然 保留 了 字符 和 词 的 顺序 ， 但 是 扩展 了 NLP 问题 的 
维度 。 

在 上 述 基于 字符 的 向 量 空间 中 , 这 些 文档 表示 不 能 很 好 地 通过 聚 类 聚 在 一 起 。 俄 罗斯 数学 家 
弗 拉 基 米 尔 . 莱 文 斯 坦 (Vladimir Levenshtein ) 提出 了 一 个 非常 聪明 的 方法 ， 可 以 快速 地 找到 这 
个 空间 下 序列 〈 字 符 串 ) 之 间 的 相似 性 。 只 使 用 这 种 简单 的 、 机 械 的 语言 视图 ， 莱 文 斯 坦 算法 就 
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能 使 创建 一 些 超级 有 趣 和 有 用 的 聊天 机 器 人 成 为 可 能 。 但 是 ， 当 我 们 想到 如 何 将 这 些 高 维 空间 压 
缩 /嵌入 到 具有 模糊 含义 的 较 低 维 空间 得 到 所 谓 的 主题 向 量 时 ， 真 正 神奇 的 事情 发 生 了 。 在 第 4 
章 中 , 当 我 们 讨论 潜在 语义 索引 和 潜在 狄 利克 雷 分 配 时 ,我 们 将 看 到 隐藏 在 魔术 师 幕 布 后 的 东西 ， 
这 两 种 技术 可 以 创建 更 密集 、 更 有 意义 的 语句 和 文档 的 向 量 表示 。 












































16 词 序 和 语法 


词 的 顺序 很 重要 。 那些 在 词 序列 ( 如 句子 ) 中 控制 词 序 的 规则 被 称 为 语言 的 语法 ( grammar， 
也 称 文法 )。 这 是 之 前 的 词 袋 或 词 向 量 例子 中 所 丢弃 的 信息 。 幸 运 的 是 ， 在 大 多 数 简短 的 短语 甚至 
许多 完整 的 句子 中 , 上 述 词 向 量 近 似 方法 都 可 以 奏效 。 如 果 只 是 想 对 一 个 短 句 的 一 般 意 义 和 情 感 进 
行 编码 的 话 ， 那 么 词 序 并 不 十 分 重要 。 看 一 下 “Good morning Rosa” 这 个 例子 中 的 所 有 词 序 结 


>>> from itertools import permutations 





























>>> [" ".join(combo) for combo in\ 

i permutations ("Good morning Rosa!".split(), 3)] 
['Good morning Rosal!l', 

'Good Rosa! morning', 

'morning Good Rosal!l', 

'morning Rosa! Good', 

'Rosa! Good morning', 

'Rosa! morning Good'] 


现在 ， 如 果 试 图 孤立 地 解释 这 些 字符 串 中 的 每 一 个 (不 看 其 他 字符 串 )， 那 么 可 能 会 得 出 结 
论 ， 即 这 些 字符 串 可 能 都 有 相似 的 意图 或 含义。 我 们 甚至 可 能 注意 到 Good 这 个 词 的 大 写 形式 ， 
并 把 它 放 在 脑海 中 短语 的 最 前 面 。 但 是 我 们 也 可 能 认为 Good Rosa 是 某 种 专 有 名 词 ， 如 和 餐馆 或 花 
店 的 名 字 。 尽管 如 此 , 一 个 聪明 的 聊天 机 器 人 或 者 布 莱 切 利 公 园 20 世纪 40 年 代 的 聪明 女士 可 能 
会 用 同样 无 伤 大 雅 的 问候 语 来 回应 这 6 种 情况 中 的 任何 一 种 :“Good morning my dear General.”” 

我 们 (在 脑海 中 ) 再 用 一 个 更 长 、 更 复杂 的 短语 来 尝试 一 下 ， 这 是 一 条 逻辑 语句 ， 其 中 词 的 
顺序 非常 重要 : 

























































































>>> s = """Find textbooks with titles containing 'NLP', 
or "natural' and 'language', or 

人 'computational' and 'linguistics'."™"" 

>>> len(set(s.split())) 


下 儿 

>>> import numpy as np 

>>> npb.arange(1，12 + 1) .prod() # factorial(12) = arange(1，13) .prod () 

479001600 

词 排列 的 数量 从 简单 的 问候 语 factorial (3) == 6 激增 到 更 长 的 语句 factorial (12) == 


4790016001 很 明显 ， 词 序 所 包含 的 逻辑 对 任何 希望 正确 回复 的 机 咒 而 言 都 很 重要 。 尽 管 普 ; 








Q@ 这 个 和 英国 二 战 密码 破译 的 公园 有 关 。 一 一 译 者 注 
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的 问候 语 通常 不 会 因为 词 袋 处 理 而 造成 混淆 , 但 如 果 把 更 复杂 的 语句 放 人 词 袋 中 , 就 会 丢失 大 部 
分 意思 。 就 像 前 面 示例 中 的 自然 语言 查询 一 样 ， 词 袋 并 不 是 处 理 数据 库 查 询 的 最 佳 方式 。 

无 论语 句 是 用 形式 化 的 编程 语言 (如 SQL ) 编写 的 ， 还 是 用 非 形 式 化 的 自然 语言 ( 如 英语 ) 
编写 的 ， 当 语句 要 表达 事物 之 间 的 逻辑 关系 时 , 词 序 和 语法 都 非常 重要 。 这 就 是 计算 机 语言 依赖 
严格 的 语法 和 句法 规则 分 析 需 的 原因 。 幸 运 的 是 ， 自 然 语言 句法 树 分 析 器 取得 了 一 些 最 新 进展 ， 
使 得 从 自然 语言 中 提取 出 语法 和 逻辑 关系 变 得 可 能 ,并 且 可 以 达到 显著 的 精确 率 ( 超过 90% ) 。 
在 后 面 的 章节 中 ， 我 们 将 介绍 如 何 使 用 SyntaxNet ( Parsey McParseface ) 和 SpaCy 这 样 的 包 来 识 
别 这 些 关系 。 

就 像 上 面 有 关 布 莱 切 利 公园 问候 语 的 例子 一 样 ,， 即 使 一 条 语句 的 逻辑 解释 并 不 依赖 词 序 , 有 
时 关注 词 序 也 可 以 得 到 一 些 十 分 微妙 的 相关 意义 的 暗示 , 这 些 意义 可 以 辅助 更 深层 次 的 回复 。 有 
关 这 些 更 深层 的 自然 语言 处 理 环节 将 在 下 一 节 讨论 。 此 外 , 第 2 章 会 介绍 一 种 技巧 ， 它 能 够 将 一 
些 由 词 序 表达 的 信息 融合 到 词 向 量 表示 当中 。 同 时, 第 2 章 还 会 介绍 如 何 改进 前 面 例子 中 使 用 的 
分 词 器 ( str.split () )， 以 便 更 准确 地 将 词 向 量 中 的 词 放 到 更 合适 的 槽 内 。 这 样 , “good” 和 
“Good” 这 样 的 词 会 放 到 同一 个 栈 里 ， 而 “rosa” 和 “Rosa”( 不 是 “Rosal”) 这 样 的 词 条 将 会 分 
配 到 不 同 的 栈 。 
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构建 对 话 引擎 或 聊天 机 器 人 所 需 的 NLP 流水 线 与 Ingersol、Morton 和 Farris 所 写 的 《驾驭 文 
本 》( Taming Text ) 一 书 中 描述 的 问答 系统 类 似 。 然 而 ， 在 5 个 子 系统 中 列 出 的 一 些 算法 可 能 对 
读者 来 说 是 全 新 的 。 我 们 帮助 大 家 在 Python 中 实现 这 些 算法 ， 以 完成 大 多 数 应 用 程序 ( 包括 聊 
天 机 器 人 ) 所 必需 的 各 种 NLP 任务 。 

聊天 机 右 人 需要 4 个 处 理 阶 段 和 一 个 数据 库 来 维护 过 去 语句 和 回复 的 记录 。 这 4 个 处 理 阶段 
中 的 每 个 阶段 都 可 以 包含 一 个 或 多 个 并 行 或 串 行 工作 的 处 理 算法 (如 图 1-3 所 示 )。 

(1) 解析 : 从 自然 语言 文本 中 提取 特征 、 结 构 化 数值 数据 。 

(2 ) 分 析 : 通过 对 文本 的 情感 、 语 法 合法 度 及 语义 打分 ， 生 成 和 组 合 特征 。 

(3 ) 生成 : 使 用 模板 、 搜 索 或 语言 模型 生成 可 能 的 回复 。 

(4) 执行 : 根据 对 话 历史 和 目标 ， 规 划 相 应 语句 ， 并 选择 下 一 条 回复 。 

上 述 4 个 阶段 中 的 每 个 阶段 都 可 以 使 用 框图 中 相应 框 中 列 出 的 一 个 或 多 个 算法 来 实现 ,我 们 
将 介绍 如 何 使 用 Python 为 这 些 处 理 步 又 中 的 每 一 个 步 又 实现 近乎 最 高 效 的 性 能 。 男 外 ， 我 们 还 
































大 多 数 聊天 机 器 人 将 包含 这 5 个 子 系统 (4 个 处 理 阶 段 加 上 数据 库 ) 的 所 有 元 素 。 但 是 很 多 
应 用 程序 针对 其 中 多 个 步骤 只 需要 简单 的 算法 。 有 些 聊 天 机 器 人 更 擅长 回答 事实 型 问题 ,而 其 他 











QD 有 关 多 个 语法 分 析 器 精度 的 一 个 对 比 ( Spacy 达到 93%，SyntaxNet 达到 94% ， 斯 坦 福 大 学 的 CoreNLP 
达到 90%， 还 有 其 他 一 些 分 析 器 ) 可 以 参考 Spacy 官方 文档 。 
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一 些 则 更 擅长 做 出 兄长 、 复 杂 、 令 人 信服 的 像 人 一 样 的 回复 。 上 述 提 到 的 每 一 种 能 力 都 需要 不 同 
的 方法 ,我 们 会 介绍 同时 实现 这 两 种 能 力 的 技术 。 





文本 











4. 执行 
一 般 化 & 分 类 
型 更 新 


目标 更 新 
对 话 计划 更 新 
回复 选择 


结构 化 数据 
(特征 向 量 ) 





打分 的 语 


可 能 的 回复 





图 1-3 聊天 机 器 人 的 循环 流水 线 








此 外 ， 深 度 学 习 和 数据 驱动 编程 (机 器 学 习 或 概率 语言 建 模 ) 使 NLP 和 聊天 机 器 人 的 应 用 
迅速 多 样 化 。 这 种 数据 驱动 的 方法 通过 为 NLP 流水 线 提供 越 来 越 多 的 期 望 得 以 应 用 的 领域 中 的 
数据 使 其 更 加 复杂 。 当 一 种 新 的 机 器 学 习 方法 被 发 现 能 够 更 好 地 利用 这 些 数据 进行 更 有 效 的 模型 
泛 化 或 正则 化 时 ， 那 么 就 有 可 能 实现 能 力 的 巨大 飞跃 。 

图 1-3 所 示 的 聊天 机 器 人 NLP 流水 线 包 含 了 本 章 一 开始 描述 的 大 多 数 NLP 应 用 程序 的 所 有 
构建 模块 。 与 《驾驭 文本 》 一 书 一 样 ， 我们 将 流水 线 划 分 为 4 个 主要 的 子 系统 或 阶段 。 此 外 ， 我 
们 还 显 式 地 调用 了 一 个 数据 库 来 于 记录 每 个 阶段 所 需 的 数据 , 并 随 着 时 间 的 推移 保存 这 些 阶 段 的 
配置 和 训练 集 。 这 可 以 在 聊天 机 器 人 与 外 界 进行 交互 时 对 每 个 阶段 进行 批量 或 在 线 再 训练 。 我 们 
还 在 生成 的 文本 回复 上 给 出 了 一 个 反馈 循环 , 以 便 使 用 与 处 理 用 户 语句 相 同 的 算法 来 处 理 我 们 的 
回复 。 然 后 ， 根 据 聊天 机 器 人 的 对 话 规划 或 目标 ， 将 回复 的 得 分 或 特征 融合 到 一 个 目标 函数 中 ， 
以 评估 和 选择 可 能 的 最 佳 回 复 。 本 书 主要 关注 在 聊天 机 器 人 上 配置 这 个 NLP 流水 线 ， 但 是 大 家 
也 可 以 看 到 类 似 于 文本 检索 或 搜索 的 NLP 问题 ， 而 搜索 可 能 是 最 常见 的 NLP 应 用 。 很 明显 ， 这 
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里 的 聊天 机 器 人 流水 线 也 适用 于 《驾驭 文本 》 这 本 书 所 关注 的 重点 应 用 一 一 问答 系统 。 

上 述 流水 线 在 金融 预测 或 商业 分 析 方 面 的 应 用 可 能 不 那么 明显 ,但 是 想象 一 下 流水 线 分 
析 部 分 生成 的 特征 。 这 些 从 分 析 或 特征 生成 中 得 到 的 特征 可 以 针对 具体 的 金融 或 商业 预测 任 
务 进行 优化 。 通 过 这 种 方式 ， 就 可 以 将 自然 语言 数据 输入 到 机 融 学 习 流 水 线 中 进行 预测 。 尽 
管 专注 于 构建 聊天 机 器 人 , 但 本 书 也 为 大 家 提供 了 从 搜索 到 金融 预测 等 广泛 的 NLP 应 用 程序 
所 需 的 工具 。 

在 图 1-3 中 有 一 个 处 理 要 素 通常 不 会 用 于 搜索 、 预 测 或 问答 系统 ， 这 就 是 自然 语言 生成 。 而 
对 聊天 机 器 人 来 说 ， 这 是 它 的 核心 特征 。 尽 管 如 此 ， 文 本 生成 步 又 经 常 被 合并 到 搜索 引擎 NLP 
应 用 程序 中 , 这 可 以 为 这 样 的 引擎 带 来 巨大 的 竞争 优势 。 对 许多 流行 的 搜索 引 警 《DuckDuckGo、 
Bing 和 Google ) 来 说 ， 整 合 或 概括 搜索 结果 的 能 力 是 一 项 制胜 特征 。 可 以 想象 ， 如 果 一 个 金融 
预测 引擎 能 够 根据 它 从 社交 媒体 网 络 和 新 闻 源 中 的 自然 语言 流 中 检测 到 的 金融 业务 活动 生成 语 
句 、 推 文 或 整 篇 文章 ， 那 该 多 么 有 价值 ! 

下 一 节 将 展示 如 何 组 合 这 样 一 个 系统 的 各 层 ， 以 便 在 NLP 流水 线 的 每 个 阶段 创建 更 复杂 的 
功能 。 







































































18 深度 处 理 


自然 语言 处 理 流水 线 的 各 个 阶段 可 以 看 作 是 层 , 就 像 前 馈 神 经 网 络 中 的 层 一 样 。 深 度 学 习 就 
是 通过 在 传统 的 两 层 机 器 学 习 模 型 架构 〈 特征 提取 + 建 模 ) 中 添加 额外 的 处 理 层 来 创建 更 复杂 的 
模型 和 行为 。 在 第 5 章 中 ， 我们 将 解释 神经 网 络 如 何 通 过 将 模型 错误 从 输出 层 反 向 传播 回 输入 层 ， 
从 而 帮助 完成 跨 层 传播 学习 的 过 程 。 但 是, 这 里 我 们 讨论 的 是 那些 顶层 以 及 通过 独立 训练 ( 各 层 
的 训练 独立 ) 所 能 达到 的 结 

1-4 中 的 前 四 层 对 应 于 上 一 节 聊 天 机 融 人 流水 线 中 的 前 两 个 阶段 〈 特 征 提取 和 特征 分 析 )。 
例如 , 词性 标注 (POS 标注 ) 是 在 聊天 机 融 人 流水 线 的 分 析 阶 段 生 成 特征 的 一 种 方法 。POS 标签 
由 默认 的 SpacY 流水 线 自动 生成 ， 该 流水 线 包括 图 1-4 中 所 有 的 前 四 层 。POS 标注 通常 使 用 有 
限 状 态 转 换 机 来 完成 ， 就 像 nltk .tag 包 中 的 方法 一 样 。 

底部 的 两 层 ( 实体 关系 和 知识 库 ) 用 于 构成 包含 特定 领域 信息 ( 知识 ) 的 数据 库 。 使 用 所 有 
这 6 层 从 特定 语句 或 文档 中 提取 的 信息 可 以 与 该 数据 库 结 合 使 用 进行 推理 。 这 里 的 推理 结果 是 从 
环境 中 检测 到 的 一 组 条 件 中 进行 的 逻辑 推理 , 就 像 聊 天 机 器 人 语句 中 包含 的 逻辑 一 样 。 图 中 较 深 
层 的 这 种 推理 机 被 认为 属于 人 工 智能 的 领域 , 机 器 可 以 对 它们 的 世界 进行 推理 , 并 使 用 这 些 推理 
结论 做 出 逻辑 决策 。 然 而 ， 聊 天 机 器 人 只 使 用 上 面 几 层 的 算法 ,可 以 在 没有 上 述 知识 库 的 情况 下 
做 出 合理 的 决策 。 这 些 决策 组 合 起 来 可 能 会 产生 令 人 惊讶 的 类 人 行为 。 

在 接 下 来 的 几 章 ， 我 们 将 深入 到 NLP 的 最 上 面 几 层 。 最 上 面 的 3 层 是 进行 有 意义 的 情感 分 析 
和 语义 搜索 , 以 及 构建 仿 人 聊天 机 器 人 所 需要 的 全 部 内 容 。 事 实 上 , 只 使 用 一 层 , 直接 使 用 文本 ( 字 
符 序列 ) 作为 语言 模型 的 特性 ,就 可 以 构建 一 个 有 用 且 有 趣 的 聊天 机 器 人 。 如 果 给 出 足够 的 示例 语 
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名 和 回复 ， 只 进行 字符 串 匹 配 和 搜索 的 聊天 机 器 人 就 能 够 参与 到 合理 的 令 人 信服 的 对 话 中 。 














算法 数据 结构 示例 应 用 
密码 学 、 革 缩 、 拼 写 校正 
“Good morning Rosa.” 中 、 四 
正则 表达 式 ee ma 
nk ee “Rosa”] 扫 索 次 休学、 垃圾 过 渤 斩 、 
词性 标注 men 机 Ves 妆 
We (Rosa gaingul8r peoper 人 语义 搜索 、 对 话 (聊天 机 器 人 ) 
人 re 拼写 及 语法 校正 、 文 体 学 、 
{ (“morning”, SN, root): 对 话 (聊天 机 器 人 ) 
eb { (“Rosa”, SPN, nmod): None, 
Wisi (“Good”, ADJ, dep): None, 问答 、 文体 学 、 复杂 对 话 、 
, 语法 校正 、 写 作 指导 
信息 提取 器 
EST) Re 知识 提取 及 推理 、 医 疗 诊断 、 
, Ny 间 答 、 游 戏 
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图 1-4 ”NLP 流水 线 中 的 示例 层 


定理 证 明 、 推 理 、 数 据 库 自 然 
语言 查询 、 通 用 人 工 智能 (AGI) 















例如 ， 开 源 项 目 ChatterBot 大 大 简化 了 上 述 流水 线 ， 它 只 计算 输入 语句 和 记录 在 数据 库 
中 的 语句 之 间 的 字符 串 “ 编 辑 距 离 ”( 莱 文 斯 坦 距 离 )。 如 果 其 语句 -回复 对 数据 库 中 包含 匹配 的 
语句 ， 则 可 以 通过 复 用 对 应 的 回复 (来 自 预先 “学 习 ” 过 的 人 工 或 机 器 对 话 框 ) 作为 最 新 语句 的 
回复 。 对 于 该 流水 线 ， 所 需要 的 只 是 聊天 机 器 人 流水 线 的 步骤 3( 生成 )。 在 这 个 阶段 ， 只 需要 
一 个 暴力 搜索 算法 就 可 以 找到 最 佳 回 复 。 通 过 这 种 简单 的 技术 〈 不 需要 分 词 或 特征 生成 )， 
ChatterBot 作为 Salvius 的 对 话 引擎 可 以 维护 令 人 信服 的 对 话 过程 ， 而 Salvius 是 由 冈 瑟 : 考 克 
( Gunther Cox ) 用 回收 部 件 构建 的 机 械 机 器 人 。 

Will 是 由 Steven Skoczen 开发 的 一 个 开源 的 Python 聊天 机 器 人 框架 , 它 采 用 了 完全 不 同 的 
方法 "。will 只 能 通过 训练 对 正则 表达 式 语句 作出 回复 。 这 是 “ 重 人 力 轻 数据 ”的 一 种 NLP 方 
法 。 这 种 基于 语法 的 方法 对 于 问答 系统 和 任务 执行 助理 机 器 人 (如 Lex、Siri 和 Google Now ) 尤 
其 有 效 。 这 些 系统 通过 使 用 “模糊 正则 表达 式 ” 和 其 他 技术 来 寻找 近似 的 语法 匹配 ， 从 而 克服 




























































































Q@ 参考 Will 的 GitHub 网 页 ，Wi11l 是 Steven Skoczen 和 HipChat 社区 为 HipChat 开发 的 一 款 聊天 机 器 人 。 
2018 年 Wil1 被 集成 到 Slack 中 

@ Python 的 regex 包 与 re 保持 后 向 兼容 ， 它 加 入 了 模糊 性 这 一 特征 。 将 来 regex 会 取代 re。 类 似 地 ， 
TRE agrep 或 者 近似 grep 是 UNIX 命令 行 应 用 程序 grep 的 一 个 替代 命令 。 
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了 精确 正则 表达 式 的 脆弱 性 。 模 糊 正则 表达 式 不 做 精确 匹配 ， 而 是 无 视 插 入 、 删 除 和 替换 的 最 大 
错误 数目 ， 在 可 能 的 语法 规则 ( 正则 表达 式 ) 列表 中 寻找 最 接近 的 语法 匹配 结果 。 然 而 ， 要 对 基 
于 语法 的 聊天 机 器 人 行为 的 广度 和 复杂 性 进行 扩展 , 需要 大 量 的 人 力 开 发 工作 。 即 使 是 由 地 球 上 
一 些 最 大 的 公司 ( 谷歌、 亚马逊 、 苹果 、 微软 ) 所 构建 和 维护 的 最 先进 的 基于 语法 的 聊天 机 器 人 ， 
聊天 机 器 人 智商 的 深度 和 广度 方面 仍 处 于 中 游 水 平 。 

浅 层 NLP 能 够 完成 许多 强大 的 任务 ， 而 且 ， 几 乎 不 需要 ( 有 的 话 也 会 极 少 ) 人 工 监督 (对 
文本 进行 标注 或 整理 )。 通 常 ， 机 器 可 以 持续 不 断 地 从 它 所 处 的 环境 ( 它 可 以 从 Twitter 或 其 他 来 
源 获 取 的 词 流 ) 中 学 习 。 我 们 将 在 第 6 章 介绍 如 何 做 到 这 一 点 。 
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就 像 人 类 的 智能 一 样 ， 如 果 不 考虑 多 个 智能 维度 ， 单 赁 一 个 智商 分 数 是 无 法 轻易 衡量 NLP 
流水 线 的 能 力 的 。 衡 量 机 器 人 系统 能 力 的 一 种 常见 方法 是 , 根据 系统 行为 的 复杂 性 和 所 需 的 人 类 
监督 程度 这 两 个 维度 来 衡量 。 但 是 对 自然 语言 处 理 流水 线 而 言 , 其 目标 是 建立 一 个 完全 自动 化 的 
自然 语言 处 理 系统 , 会 消除 所 有 的 人 工 监 督 (一 旦 模型 被 训练 和 部 署 )。 因 此 , 一 对 更 好 的 IQ 维 
度 应 该 能 捕捉 到 自然 语言 流水 线 复 杂 性 的 广度 和 深度 。 

像 Alexa 或 Allo 这 样 的 消费 产品 聊天 机 器 人 或 者 虚拟 助手 ,通常 设计 为 具有 极其 广泛 的 知识 

和 功能 。 然 而 ,用 于 响应 请 求 的 逻辑 往往 比较 浅显 ,通常 由 一 组 触发 短语 组 成 ， 这 些 短语 都 使 用 
单个 if-then 决策 分 支 来 生成 相同 的 回复 。Alexa ( 以 及 底层 的 Lex 引擎 ) 的 行为 类 似 于 一 个 单 
层 的 、 遍 平 的 (if、elif、elif.…… ) 语句 树 ”。 谷 歌 的 Dialogflow 是 独立 于 谷歌 的 Allo 和 谷 
歌 智能 助理 (Google Assistant ) 开发 出 的 产品 ， 具 有 与 亚马逊 的 Lex、Contact Flow 和 Lambda 
类 似 的 功能 ， 但 是 没有 用 于 设计 对 话 树 的 拖 放 用 户 界面 。 
男 一 方面 ， 谷 歌 翻译 ( Google Translate ) 流水 线 (或 任何 类 似 的 机 器 翻译 系统 ) 依赖 一 个 由 
特征 提取 器 、 决 策 树 和 知识 图 谱 组 成 的 深层 树 结构 ， 其 中 知识 图 谱 连 接着 世界 知识 。 有 了 时， 这 些 
特征 提取 器 、 决 策 树 和 知识 图 谱 被 显 式 地 编程 到 系统 中 ， 如 图 1-4 所 示 。 男 一 种 快速 超越 这 种 手 
工 编码 流水 线 的 方法 是 基于 深度 学 习 的 数据 驱动 方法 。 深度 神经 网 络 的 特征 提取 絮 是 自动 学 习 而 
不 是 硬 编码 的 ， 但 它们 通常 需要 更 多 的 训练 数据 才能 达到 与 精心 设计 的 算法 相同 的 性 能 。 

下 面 我 们 逐步 为 聊天 机 器 人 建立 NLP 流水 线 以 便 能 够 在 某 个 知识 领域 和 用 户 交 谈 ， 这 期 间 
我 们 将 使 用 上 面 提 到 的 这 两 种 方法 ( 神经 网 络 和 手工 编码 算法 )。 该 实战 过 程 将 为 大 家 提供 所 需 
的 技能 ， 以 完成 大 家 在 各 自 的 工业 或 商业 领域 的 自然 语言 处 理 任务 。 在 此 过 程 中 , 大 家 可 能 会 了 
解 如 何 扩展 NLP 流水 线 以 拓宽 任务 范围 。 图 1-5 将 聊天 机 器 人 置 于 现存 的 自然 语言 处 理 系统 中 。 
想象 一 下 与 我 们 交互 的 聊天 机 器 人 , 大 家 认为 它们 在 图 中 应 该 处 于 什么 位 置 ? 大 家 有 没有 试 过 用 
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Q@ 简单 的 神经 网 络 常 常用 于 从 字符 和 词 序 列 中 无 监督 地 提取 特征 。 
@) 将 Lambda 加 入 AWS Contact Flow 对 话 树 ， 就 能 获得 更 复杂 的 逻辑 和 行为 。 参 考 “Creating Call Center Bot 
with AWS Connect” 。 
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难题 或 类 似 IQ 测试 的 方法 来 测试 它们 的 智商 ? 在 后 面 的 章节 中 , 大 家 将 有 机 会 确切 地 做 到 这 一 
点 ， 以 帮助 大 家 确定 自己 开发 的 聊天 机 融 人 与 图 中 其 他 机 器 人 的 异同 。 
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图 1-5 一 些 NLP 系统 的 二 维 智商 展示 


随 着 阅读 的 不 断 深 入 , 我 们 将 构建 聊天 机 器 人 的 各 个 组 成 元 素 。 聊 天 机 器 人 需要 所 有 的 NLP 
工具 才能 很 好 地 工作 : 

田 特征 提取 (通常 产生 一 个 向 量 空 间 模型 ); 

田 通过 信息 提取 回答 事实 型 问题 ; 

国 通过 语义 搜索 从 自然 语言 文本 或 对 话 的 历史 记录 中 学 习 ; 

加 通过 自然 语言 生成 来 构成 有 意义 的 新 语句 。 

机 器 学 习 给 了 我 们 一 种 方式 , 让 机 器 表现 得 就 像 我 们 花 了 一 辈子 时 间 用 数 以 百 计 的 复杂 正则 
表达 式 或 算法 在 它 身上 一 样 。 只 需要 提供 用 户 语句 以 及 期 望 聊天 机 器 人 模拟 的 回复 的 示例 , 我 们 
就 可 以 教会 机 器 对 类 似 于 正则 表达 式 中 定义 的 模式 进行 回复 。 而 由 机 器 学 习 产 生 的 语言 “模型 ”， 
即 有 限 状 态 机 则 好 得 多 ， 它 们 对 拼写 和 录入 错误 不 那么 敏感 。 

此 外 ， 基 于 机 器 学 习 的 NLP 流水 线 更 容易 用 编程 实现 。 我 们 不 需要 预测 语言 符号 的 每 一 种 
可 能 用 法 , 而 只 需要 给 训练 流水 线 提供 匹配 和 不 匹配 的 短语 样本 。 只 要 在 训练 过 程 中 给 它们 贴 上 
标签 ， 聊天 机 器 人 就 知道 哪些 是 正 样本 ,哪些 是 负 样 本 ,， 它 就 会 学 会 对 正 负 样本 进行 区 分 。 其 至 
还 有 一 些 机 器 学 习 方 法 ， 几 乎 不 需要 “标记 ”数据 。 

我 们 已 经 给 了 读者 一 些 学 习 NLP 的 令 人 兴奋 的 理由 。 大 家 想 瓜 救 世界 ， 是 吗 ? 我 们 试图 通 
过 一 些 实际 的 NLP 应 用 程序 来 引起 大 家 的 兴趣 ， 这 些 应 用 正在 改变 我 们 的 沟通 、 学 习 、 交 易 其 
至 思考 的 方式 。 不 久之 后 ， 我 们 就 可 以 构建 一 个 类 似 于 人 类 会 话 行为 的 系统 。 大 家 应 该 能 够 在 接 
下 来 的 章节 中 看 到 , 如 何 用 感 兴趣 的 领域 知识 来 训练 聊天 机 器 人 或 NLP 流水线, 这 些 领域 从 金融 、 
















































































GD Byron Reese 建议 的 一 个 好 问题 是 “What’s larger? The sun or a nickel?”。 本 书 GitHub 上 有 更 多 问题 供 大 
家 起 步 时 参考 ( src/nlpia/data/iq_ test.csv )。 
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体育 到 心理 学 和 文学 。 如 果 能 找到 关于 某 一 领域 的 语料库 ， 那 么 就 能 训练 机 器 去 理解 这 个 领域 。 

本 书 接 下 来 的 其 余 各 章 将 介绍 机 器 学 习 在 NLP 中 的 应 用 ， 通 过 机 器 学 习 可 以 避免 我 们 预测 
自然 语言 所 有 的 表述 方式 。 每 一 章 都 对 本 章 介绍 的 聊天 机 器 人 的 基本 NLP 流水 线 进 行 逐 步 改 进 。 
在 学 习 NLP 工具 的 过 程 中 ,我 们 将 构建 NLP 流水 线 ， 它 不 仅 可 以 用 于 对 话 ， 还 可 以 帮助 我 们 实 
现 商 业 和 生活 中 的 目标 。 








110 ”小结 


好 的 NLP 可 以 帮助 拯救 世界 。 

词 的 意义 和 意图 可 以 被 机 器 破译 。 

一 个 智能 的 NLP 流水 线 将 能 够 处 理 歧义 。 

我 们 可 以 教 机 器 常识 ， 而 不 是 花 一 辈子 的 时 间 来 训练 它们 。 
聊天 机 器 人 可 以 看 成 是 一 种 语义 搜索 引擎 。 
正则 表达 式 不 仅仅 用 于 搜索 。 
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UUDU 一 -开明 





本 章 主 要 内 容 

图 将 文本 切 分 成 词 或 n-gram ( 词 条 ) 

图 处 理 非 标准 的 标点 符号 和 表情 符号 ( 如 社交 媒体 帖子 上 的 表情 符号 ) 
图 利用 词 干 还 原 和 词 形 归 并 方法 压缩 词汇 表 

图 构建 语句 的 向 量 表示 

国 基于 手工 标注 的 词 条 得 分 构建 情感 分 析 工 具 




















到 目前 为 止 , 大 家 是 否 已 经 准备 好 用 自然 语言 处 理 的 能 力 拯救 世界 了 呢 ?” 如 果 是 的 话 , 那么 
第 一 件 事 是 需要 一 个 强大 的 词汇 表 。 本 章 将 帮助 大 家 将 文档 或 任何 字符 串 拆 分 为 离散 的 有 意义 的 
词 条 。 这 里 说 的 词 条 仅 限 于 词 、 标 点 符号 和 数值 , 但 是 这 里 使 用 的 技术 可 以 很 容易 推广 到 字符 序 
列 包 含 的 任何 其 他 有 意义 的 单元 ， 如 ASCI 表情 符号 、Unicode 表情 符号 和 数学 符号 等 。 

从 文档 中 检索 词 条 需要 一 些 字符 串 处 理 方法 ， 这 些 方法 不 仅仅 限于 第 1 章 使 用 的 
stz.split() 。 处 理 时 需要 把 标点 符号 〈 如 语句 前 后 的 引号 ) 与 词 分 开 ， 还 需要 将 “we’ll” 这 
样 的 缩写 词 还 原 成 原始 词 。 一 旦 从 文档 中 确定 好 要 加 入 词汇 表 中 的 词 条 之 后 , 需要 使 用 正则 表达 
式 工具 来 将 意义 相似 的 词 合 并 在 一 起 ， 这 个 过 程 称 为 词 干 还 原 ( stemming )。 然 后 ， 大 家 就 可 以 
将 文档 表示 成 词 袋 向 量 , 我 们 可 以 尝试 一 下 看 看 这 些 向 量 是 否 能 够 提高 第 1 章 末 尾 提 到 的 问候 语 
识别 需 的 能 

考虑 一 下 一 个 词 或 词 条 对 大 家 到 底 意味 着 什么 。 它 到 底 表 示 单 个 概念 ? 还 是 一 些 模糊 概念 的 
混杂 体 ? 大 家 是 否 能 够 确信 自己 总 能 认识 每 个 词 ?” 自然 语言 的 词 是 否 像 编程 语言 中 的 关键 字 一 
样 具有 精确 的 定义 和 一 套 语 法 使 用 规则 ? 大 家 能 和 否 编写 出 能 够 识别 词 的 软件 ?对 大 家 来 说 , “ice 
cream” 到 底 是 一 个 词 还 是 两 个 词 ? 它 在 大 家 的 头脑 当中 难道 不 是 有 两 个 词 ice 和 cream， 并 且 这 
两 个 词 与 复合 词 “ice cream” 完 全 独立 吗 ? 对 于 缩写 “don't” 又 该 如 何 处 理 ?” 这 个 字符 串 到 底 应 
该 拆 分 成 单个 意义 单元 还 是 两 个 意义 单元 ? 

另外 ， 词 可 以 再 分 成 更 细 粒 度 的 意义 单元 。 词 本 身 可 以 分 为 更 小 的 有 意义 部 分 。 诸 如 “re” 
“pre” 和 “ing” 之 类 的 音节 、 前 级 和 后 缀 都 有 其 内 在 含义 。 词 的 各 组 成 部 分 还 可 以 进一步 分 成 更 
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细 粒 度 的 意义 单元 。 字 母 或 语义 图 符 ( grapheme ) 也 承载 着 情感 和 意义 。 

我 们 将 在 后 面 的 章节 中 讨论 基于 字符 的 向 量 空间 模型 。 但 现在 我 们 先 试 着 解决 词 是 什么 以 及 
如 何 将 文本 切 分 成 词 这 两 个 问题 。 

那么 对 于 隐藏 或 者 隐 含 的 词 如 何 处 理 呢 ? 如 果 给 出 单个 词 的 命令 “Don't !”， 大 家 能 想 出 它 
所 暗示 的 更 多 的 词 吗 ? 如 果 大 家 能 强迫 自己 先 像 一 台 机 器 一 样 思 考 然后 回 到 人 类 的 思考 方式 , 那 
么 可 能 会 意识 到 在 上 述 命令 中 还 隐 含 其 他 3 个 词 。 单 个 语句 "Don't !” 的 意思 是 “Don’t you do that!” 
或 者 “You, do not do that!1”。 我 们 期 望 机 器 能 够 知道 在 总 共 5 个 词 条 中 隐 含 的 3 个 意义 单元 。 不 
过 , 读者 现在 暂时 不 要 担心 隐 含 词 的 问题 ,， 本章 所 需要 的 只 是 一 个 分 词 器 ， 它 能 够 识别 出 已 拼写 
出 来 的 词语 。 第 4 章 及 以 后 大 家 将 会 担心 隐 含 词 、 内 涵 甚 至 含义 本 身 。 

本 章 将 给 出 将 输入 串 切 分 成 词 的 直接 算法 ， 同 时 我 们 还 可 以 提取 出 连续 2 个 、3 个 、4 个 其 
至 5 个 词 条 组 成 的 词 对 、 三 元 组 、 四 元 组 和 五 元 组 。 这 些 语言 单位 称 为 n-gram (n 元 )。 连 续 两 
个 词 称 为 2-gram (bigram )， 连 续 3 个 词 称 为 3-gram (trigram )， 连 续 4 个 词 称 为 4-gram， 其 余 
以 此 类 推 。 利 用 n-gram 可 以 让 机 器 不 仅 认 识 “ice” 和 “cream”， 也 认识 它们 构成 的 2-gram“ice 
cream”。 另 一 个 可 能 需要 放 在 一 起 的 2-gram 是 “Mr Smith”。 无论 是 最 终 的 词 条 还 是 文档 的 向 量 
表示 都 应 该 同时 为 “Mr Smith” 以 及 “Mr.” 和 “Smith” 保 留 位 置 。 

到 现在 为 止 ， 所 有 的 2-gram ( 和 其 他 较 短 的 n-gram ) 都 将 放 到 最 后 的 词汇 表 当 中 。 但 是 在 
第 3 章 大 家 将 会 学 到 如 何 利 用 词 的 文档 频率 ( 即 出 现 该 词 的 文档 数目 ) 来 估计 它们 的 重要 性 。 利 
用 这 种 方法 可 以 过 滤 掉 那些 罕见 的 词 对 或 三 元 组 。 大 家 会 发 现 我 们 给 出 的 方法 并 不 完美 。 在 任何 
机 器 学 习 流 水 线 中 ， 特 征 提取 很 少 能 够 完全 保留 输入 数据 的 所 有 信息 内 容 。 这 也 是 NLP 艺术 的 
一 部 分 ， 当 需要 调整 分 词 器 以 便 从 具体 应 用 的 文本 中 提取 更 多 或 不 一 样 的 信息 时 ， 要 进行 学 习 。 

在 自然 语言 处 理 中 ， 从 文本 中 产生 其 数值 向 量 实际 是 一 个 特别 “有 损 ” 的 特征 提取 过 程 。 尺 
管 如 此 ， 词 袋 (bag-ofwords，BOW ) 向 量 从 文本 中 保留 了 足够 的 信息 内 容 来 产生 有 用 和 有 趣 的 
机 器 学 习 模型 。 本 章 未 尾 情感 分 析 器 中 所 用 的 技术 也 就 是 Gmail 所 采用 的 技术 , 这 些 技术 让 我 们 
逃离 垃圾 邮件 组 成 的 “海洋 ”， 这 些 垃圾 邮件 几乎 让 电子 邮件 系统 毫 无 用 处 。 











































































































2.1 挑战 ( 词 干 还 原 预览 ) 


为 了 说 明 特 征 提 取 困难 的 原因 ， 我 们 先 考虑 一 个 词 干 还 原 的 例子 。 所 谓词 干 还 原 ， 指 的 是 将 某 
个 词 的 不 同 届 折 变化 形式 统统 “打包 ”到 同一 个 “ 桶 ”或 者 类 别 中 。 一 些 聪明 人 在 职业 生涯 中 仅 基 
于 词 的 拼写 开发 了 对 词 的 不 同 变形 “打包 ”的 算法 。 大 家 可 以 想象 一 下 词 干 还 原 的 大 致 难度 。 假 定 
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@ 词素 (morpheme ) 是 词 的 组 成 部 分 , 其 本 身 包含 意义 。Geoffrey Hinton 及 其 他 深度 学 习 学 者 的 工作 表明 ， 

即使 字母 这 种 书面 文本 的 最 小 单位 也 可 以 认为 它们 自己 是 有 内 在 含义 的 。 

@ 如 果 你 想 了 解 更 多 关于 词 的 精确 真实 定义 的 信息 , 可 以 参考 Jerome Packard 的 The Morphologyof Chinese 
一 书 的 前 言 部 分 ， 在 那里 作者 详细 讨论 了 词 的 含义 。 在 20 世纪 从 英语 语法 翻译 到 汉语 之 前 ， 汉 语 中 根 
本 不 存在 “ 词 ”这 个 概念 。 
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要 将 “ending” 中 的 动词 后 级 “ing” 去 掉 ， 那 么 就 需要 有 个 称 为 “end” 的 词 干 来 表示 上 面 两 个 词 。 
同样 ， 我们 将 词 “running” 还 原 成 “run”， 于 是 这 两 个 词 可 以 同等 对 待 。 当 然 ， 上 述 处 理 过 程 实际 
上 有 些 环 手 , 因为 “running” 中 要 去 掉 的 不 仪 仪 是 “ing” 还 有 一 个 额外 的 字母 “n”。 还 有 , 对 于 “sing” 
来 说 ， 我 们 期 望 不 要 去 掉 后 面 的 “ing” 而 保留 整个 词 ， 否 则 ， 最 后 就 会 得 到 单个 字母 “s”。 

或 者 , 大 家 再 设想 一 下 如 何 区 分 名 词 复数 后 面 加 的 “s”( 如 words ) 和 词 本 身 ( 如 bus 和 lens) 
后 面 就 有 的 “s”。 词 当中 一 个 个 独立 的 字母 或 者 词 的 一 部 分 是 和 否 为 整个 词 的 意义 提供 了 信息 ? 这 
些 字母 是 否 可 能 产生 误导 ? 这 两 个 问题 的 答案 都 是 yes。 

本 章 将 利用 传统 的 词 干 还 原 方法 来 处 理 上 述 词 拼写 的 挑战 问题 ， 从 而 使 所 构造 的 NLP 流水 
线 稍微 聪明 一 点 儿 。 后面 的 第 $ 章 会 介绍 统计 聚 类 方法 , 这 些 方法 仅仅 需要 我 们 积累 一 些 包 含 我 
们 感 兴趣 的 词 的 大 量 自然 语言 文本 。 从 这 些 文本 中 , 有 关 词 用 法 的 统计 信息 将 会 给 出 “语义 词 干 ” 
(实际 上 ,是 一 些 更 有 用 的 词 聚 类 结果 ， 如 词 元 或 者 同义词 )， 此 时 并 不 需要 任何 人 工 设 定 的 正则 
表达 式 或 者 词 干 还 原 规则 进行 处 理 。 
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在 NLP 中 ,分词 (tokenization， 也 称 切 词 ) 是 一 种 特殊 的 文档 切 分 ( segmentation ) 过 程 。 
而 文档 切 分 能 够 将 文本 拆 分 成 更 小 的 文本 块 或 片段 , 其 中 含有 更 集中 的 信息 内 容 。 文档 切 分 可 以 
是 将 文档 分 成 段落 ,将 段落 分 成 句子 ,将 句子 分 成 短语 ,或 将 短语 分 成 词 条 ( 通常 是 词 ) 和 标点 
符号 。 本 章 主要 关注 将 文本 分 割 成 词 条 的 过 程 ， 这 个 过 程 称 为 分 词 。 

如 果 大 家 之 前 上 过 一 门 有 关 编 译 器 工作 原理 的 计算 机 科学 课程 , 那么 可 能 听 说 过 分 词句 。 用 
于 编译 计算 机 语言 的 分 词 器 通常 称 为 扫描 器 ( scanner ) 或 者 词法 分 析 器 (lexer )。 某 种 计算 机 语 
言 的 词汇 表 (所 有 有 效 的 记号 合 ) 构成 所 谓 的 词 库 (lexicon )， 该 术语 仍然 用 于 当前 的 NLP 学 术 
文献 中 。 如 果 分 词 器 合并 到 计算 机 语言 编译 器 的 分 析 器 (parser ) 中 ， 则 该 分 析 咒 常常 称 为 无 扫 
描 需 分 析 器 (scannerless parser )。 而 记号 ( token ) 则 是 用 于 分 析 计 算 机 语言 的 上 下 文 无 关 语法 
( context-free grammar，CFG ) 的 最 终 输出 结果 ， 由 于 它们 终结 了 CFG 中 从 根 节点 到 叶子 节点 的 
一 条 路 径 ， 因 此 它们 也 称 为 终结 符 ( terminal )。 在 第 11 章 中 ， 当 我 们 使 用 CFG 和 正则 表达 式 这 
两 种 形式 语法 从 自然 语言 中 匹配 模式 和 提取 信息 时 ， 会 学 到 更 多 有 关 形 式 语法 的 知识 。 

对 于 NLP 的 基础 构建 模块 ， 计 算 机 语言 编译 器 中 存在 一 些 与 它们 等 同 的 模块 : 

图 “分词 器 一 一 扫描 器 ， 或 称 词 法 分 析 器 ; 

图 词汇 表 一 一 词 库 ; 

图 分 析 器 一 一 编译 器 ; 

图 词 条 、 词 项 、 词 或 n-gram 一 一 标识 符 或 终结 符 。 

分 词 是 NLP 流水 线 的 第 一 步 ， 因 此 它 对 流水 线 的 后 续 人 处理 过 程 具有 重要 的 有 影响。 分 词 絮 将 
自然 语言 文本 这 种 非 结 构 化 数据 切 分 成 多 个 信息 块 , 每 个 块 都 可 看 成 可 计数 的 离散 元 素 。 这 些 元 
素 在 文档 中 的 出 现 频率 可 以 直接 用 于 该 文档 的 向 量 表 示 。 上 述 过 程 立即 将 非 结 构 化 字符 串 (文本 
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文档 ) 转换 成 适合 机 器 学 习 的 数值 型 数据 结构 。 元 素 的 出 现 频率 可 以 直接 被 计算 机 用 于 触发 有 用 
的 行动 或 回复 。 或 者 ,它们 也 可 以 以 特征 方式 用 于 某 个 机 器 学 习 流 水 线 来 触发 更 复杂 的 决策 或 行 
为 。 通 过 这 种 方式 构建 的 词 袋 向 量 最 常 应 用 于 文档 检索 或 者 搜索 任务 中 。 

对 句子 进行 切 分 的 最 简单 方法 就 是 利用 字符 串 中 的 空白 符 来 作为 词 的 “边界 "。 在 Python 中 ， 
可 以 通过 标准 库 方法 split 来 实现 这 种 操作 , split 在 所 有 的 str 对 象 实例 中 都 可 以 调用 , 也 
可 以 在 str 内 风 类 本 身 进行 调用 。 代 码 清单 2-1 和 图 2-1 给 出 了 调用 的 示例 。 











代码 清单 2-1 将 Monticello 句子 切 分 成 词 条 的 代码 示例 





>>> Sentence = """Thomas Jefferson began building Monticello at the 
age of 26."™"" 
>>> sentence.split() 
'Thomas', 
'Jefferson', 
'began', 
“ouilOaine.s 
'Monticello', 
‘at!,; 
'the', 
"age '， 
MOENs 
SR | 
>>> str.split (sentence) 
['Thomas', 
'Jefferson', 
'began', 
'pbuilding', 
'Monticello', 
at 
'the', 
'age', 
Gf, 
2 人 Ge 


Thomas | Jefferson | began | building | Monticello| at | the | age | of | 26. 


图 2-1 分 词 后 得 到 的 短语 


正如 大 家 看 到 的 那样 ， 上 述 的 Python 内 置 方 法 已 经 对 这 个 简单 的 句子 进行 了 相当 不 错 的 分 词 处 
理 , 仅仅 在 最 后 那个 词 上 出 现 一 条 “错误 ”， 即 将 句 尾 的 标点 符号 也 归 入 词 条 当中 而 得 到 “26.”。 通常 
来 说 , 我 们 都 会 期 望 句子 中 的 某 个 词 条 和 周围 的 标点 符号 及 其 他 有 意义 的 词 条 分 开 。 上 面 得 到 的 “26.” 
是 浮 点 数 26.0 的 完美 表示 结果 , 但 是 这 样 的 话 ， 它 和 出 现在 语料库 句子 中 的 “26” 及 可 能 出 现在 问 句 
句 尾 的 “26?” 就 完全 不 是 一 回 事 了 。 一 个 优秀 的 分 词 器 应 该 去 掉 上 面 词 条 中 的 额外 的 字符 而 得 到 ”26”， 
它 是 词 “26” “26!”“26?” “26.” 的 等 价 类 表示 结果 。 此 外 ， 一 个 更 为 精确 的 分 词 器 应 该 也 将 句 尾 的 
标点 符号 作为 词 条 输出 ， 这 样 句子 切 分 工具 或 者 边界 检测 工具 才能 确定 句子 的 结束 位 置 。 

现在 , 我 们 先 利用 当前 这 个 并 不 完美 的 分 词 器 来 进行 分 词 处 理 , 后 面 再 处 理 标点 符号 和 其 他 
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有 挑战 性 的 问题 。 再 利用 一 点 点 Python 技术 ， 我 们 就 能 构建 每 个 词 的 数值 向 量 表示 。 这 些 向 量 
称 为 独 热 向 量 ( one-hot vector )， 很 快 我 们 就 会 知道 这 样 称 呼 它们 的 原因 。 这 些 独 热 向 量 构成 的 
序列 能 够 以 向 量 序列 〈 数字 构成 的 表格 ) 的 方式 完美 捕捉 原始 文本 。 上 述 处 理 过 程 解决 了 NLP 
的 第 一 个 问题 ， 即 将 词 转换 成 数字 : 





str.split0) 是 当前 临 
时 应 急 的 分 词 右 














词汇 表 中 列举 了 所 有 想 要 
记录 的 独立 词 条 ( 词 ) 








>>> import numpy as np 
>>> token sequence = str.split (sentence) 
>>> vocab = sorted(set (token sequence)) 















































SDD OL (vCab) 4 

'26., Jefferson, Monticello, Thomas, age, at began, building, of, the' 

>>> num_tokens = len (token_sequence) 词 条 按照 词 库 顺序 进行 排序 ， 因 此 数字 排 在 
>>> vocab size = len (vocab) 字母 前 面 ， 大 写字 母 排 在 小 写字 母 前 面 
>>> onehot vectors = np.zeros( (num tokens, 

a vocab size), int) 4 

>>> for i, word in enumerate (token sequence): 

2 onehot vectors[i, vocab.index(word)] = 1 | 

>>> ' '.join(vocab) 


'26. Jefferson Monticello Thomas age at began building of the' 
>>> onehot vectors 





























arrav(l 0 OOF...0 Ls "Os ORO OO "Ody 辐 ws 
OG 了 0 Os 0 0 0 0 0 0 对 于 句子 中 的 每 个 词 , 将 词汇 表 中 与 
O05 205:°05. 03: O05 2707 dQ 05 50 该 词 对 应 的 列 标记 为 1 
QO Or OF Oy OF Oe Ly Qe OF; 
QO 0 Lr. 0 O03 0. 70 0%.. 0] 
Ox OF OF “OF Or Lu 0 "O70 "Os 
0，0，0， 0 5 ”0 0 0，0，06. ”这 张 空 表 的 宽度 是 词汇 表 中 独立 词 项 的 个 数 ， 长 度 
了 了 了 了 了 了 了 了 了 s 折 打 才 > 日 4 二 1 和 去 
0, 0, 0, 0, 0, 0, 0, 0, 1, 0]， 是 文档 的 长 度 ， 这 里 是 10 行 10 列 的 于 
Ey "0% 0 O07 O07 O73 Oy Oy 0 01) 


如 果 大 家 对 快速 浏览 上 面 的 1 和 0 有 困难 的 话 ， 那 么 有 这 种 感觉 的 不 止 你 一 个 人 。Pandas 
DataFrame 可 以 使 这 些 看 起 来 更 容易 一 些 , 信息 量 也 更 多 一 些 。Pandas 会 利用 Series 对 象 中 的 
辅助 功能 对 一 维 数组 打包 。 此 外 ，Pandas 对 于 表示 数值 型 表格 特别 方便 ， 如 列表 组 成 的 列表 (list)、 
二 维 numpy 数组 、 二 维 numpy 和 矩阵、 数组 组 成 的 数组 以 及 字典 组 成 的 字典 等 。 

DataFrame 为 每 一 列 记录 了 其 对 应 的 标签 ,这 样 就 可 以 将 每 一 列 对 应 的 词 条 或 词 标 在 上 面 。 
为 了 加 快 查找 过 程 ，DataFrame 也 可 以 利用 DataFrame .inqdex 为 每 一 行 记录 其 对 应 的 标签 。 
当然 ， 对 大 部 分 应 用 来 说 ， 行 的 标签 只 是 连续 的 整数 。 在 这 个 有 关 Thomas Jefferson 的 句子 的 独 
热 词 向 量 的 示例 中 ， 我 们 目前 暂时 只 使 用 默认 的 行 标签 整数 。 这 个 示例 参见 代码 清单 2-2。 























代码 清单 2-2 ”Monticello 句子 的 独 热 向 量 序列 





>>> import pandas as pd 
>>> pd.DataFrame (onehot vectors, columns=vocab) 











QD 即 每 一 行 对 应 当前 位 置 上 的 词 的 向 量 ， 句 子 多 长 就 有 多 少 行 ， 词 汇 表 多 大 就 有 多 少 列 。 一 一 译 者 注 
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26. Jefferson Monticello Thomas age at began building of the 
0 0 0 0 ~ 0 0 0 0 0 0 
1 0 业 0 0 0 0 0 0 0 0 
2 0 0 0 0 0 0 0 0 0 
已 0 0 0 0 0 0 0 在 0 0 
4 0 0 业 0 0 0 0 0 0 0 
5 0 0 0 0 0 于 0 0 0 0 
6 0 0 0 0 0 0 0 0 0 1 
7 0 0 0 0 0 0 0 0 0 
8 0 0 0 0 0 0 0 0 业 0 
9 业 0 0 0 0 0 0 0 0 0 


独 热 向 量 看 起 来 十 分 稀 踊 ,每 个 行 向 量 中 只 有 一 个 非 零 值 。 因 此 , 我 们 可 以 把 所 有 的 0 蔡 换 
成 空格 ， 这 样 可 以 使 独 热 行 向 量 表格 看 上 去 更 美观 一 些 。 但 是 ， 不 要 在 机 器 学 习 流 水 线 中 的 
DataFrame 上 进行 这 样 的 操作 , 因为 这 样 做 的 话 会 在 numpy 数组 中 构建 大 量 非 数 值 型 对 象 , 从 
而 导致 数学 计算 上 的 混乱 。 当 然 , 如 果 只 是 为 了 在 显示 上 让 独 热 向 量 序列 像 机 械 音 乐 盒 上 的 圆 简 
或 者 自动 演奏 钢琴 鼓 的 话 ， 那 么 就 可 以 采用 代码 清单 2-3 所 示 的 这 种 便捷 的 数据 展示 方法 。 











代码 清单 2-3 ”更 优美 的 独 热 向 量 展示 





>>> df = pd.DataFrame (onehot vectors, columns=vocab) 
>>> dfl[df == 0] = "" 
>>> df 
26. Jefferson Monticello Thomas age at began building of the 
下 


避 oawm 必 wm 避 
上 


J 


在 上 述 这 个 单 句子 文档 的 表示 中 ， 每 行 的 向 量 都 对 应 一 个 独立 的 词 。 该 句子 包含 10 个 相互 
不 同 的 词 ， 没 有 任何 重复 。 于 是 ， 上 述 表格 包含 10 列 ( 对 应 词汇 表 中 的 词 ) 10 行 (对 应 文档 中 
的 词 )。 每 列 中 的 数字 “1” 表 示 词 汇 表 中 的 词 出 现在 当前 文档 的 当前 位 置 。 因 此 ， 如 果 想 知道 文 
档 中 的 第 3 个 词 是 什么 ， 就 可 以 定位 在 表格 中 的 第 3 行 (由 于 行 从 0 开始 编号 ， 因 此 这 里 的 第 3 
行 对 应 的 编号 为 2 )， 从 这 行 中 找到 数字 “1” 对 应 的 列 。 在 该 列 即 第 7 列 的 头 部 ， 可 以 找到 其 向 
量 表示 对 应 的 词 为 “began” 的 自然 语言 表示 。 

上 述 表格 的 每 一 行 都 是 一 个 二 值 的 行 向 量 , 这 就 是 该 向 量 称 为 独 热 向 量 的 原因 : 这 一 行 的 元 
素 除 一 个 位 置 之 外 都 是 0 或 者 空白 ， 而 只 有 该 位 置 上 是 “ 热 ” 的 (为 1 )。“1” 意 味 着 “打开 ” 
或 者 “ 热 ", 而 0 意味 着 “关闭 ”或 者 “缺失 ”。 之 后 ,我 们 就 可 以 在 NLP 流水 线 中 使 用 向 量 [0， 
0，0，0，0，0，1，0，0，0] 来 表示 词 “began”。 
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上 面 的 词 向 量 表示 及 文档 的 表格 化 表示 有 一 个 优点 ， 就 是 任何 信息 都 没有 丢失 。 只 要 记录 
了 哪 一 列 代表 哪个 词 ， 就 可 以 基于 整 张 表 格 中 的 独 热 向 量 重 构 出 原始 文档 。 即 使 分 词 器 在 生成 我 
们 认为 有 用 的 词 条 时 只 有 90% 的 精确 率 ， 上 述 重 构 过 程 的 精确 率 也 是 100%。 因 此 ， 和 上 面 一 样 
的 独 热 向 量 常常 用 于 神经 网 络 、 序 列 到 序列 语言 模型 及 生成 式 语言 模型 中 。 对 任何 需要 保留 原始 
文本 所 有 含义 的 模型 或 NLP 流水 线 来 说 ， 独 热 向 量 模式 提供 了 一 个 好 的 选择 。 

上 述 独 热 向 量 表 格 就 像 是 对 原始 文本 进行 了 完全 录制 。 如 果 旺 着 眼睛 看 , 大 家 可 能 会 想象 上 
面 的 0-1 矩阵 是 一 个 自动 演奏 钢琴 的 纸 卷 ， 或 者 是 音乐 盒 金 属 鼓 上 的 凸 起 块 ”。 表 格 上 面 的 词汇 

告诉 机 器 的 是 ， 每 个 行 序列 到 底 对 应 哪个 词 ， 就 像 是 钢琴 乐曲 中 应 该 演奏 哪个 “音符 "。 和 自 
动 演奏 钢琴 不 同 的 是 ， 这 里 的 机 械 词 记 录 仪 或 者 播放 器 一 次 只 允许 使 用 一 个 “手指 ”进行 演奏 ， 
即 它 一 次 只 能 演奏 一 个 “音符 ”或 词 。 这 就 是 独 热 的 含义 。 每 个 音符 或 词 按 照 一 致 的 步伐 演奏 ， 
且 演 奏 的 时 长 完全 一 样 ， 即 词 的 间隔 一 直 保持 不 变 。 

但 是 ， 上 面 给 出 的 与 自动 演奏 钢琴 的 类 比 只 是 一 种 考虑 独 热 词 向 量 的 方法 。 大 家 可 以 采用 任 
何 思 考 模型 ， 只 要 该 模型 对 你 有 意义 即 可 。 重 要 的 事情 在 于 , 我们 已 经 将 一 个 自然 语言 的 句子 转 
换 成 了 数值 序列 ， 即 向 量 。 现 在 我 们 可 以 利用 计算 机 读 入 这 些 向 量 并 进行 一 系列 数学 运算 ， 就 像 
对 其 他 向 量 或 者 数值 列表 进行 的 运算 一 样 。 这 样 就 可 以 将 向 量 输入 任何 需要 这 类 向 量 的 自然 语言 
处 理 流 水 线 中 。 

如 果 想 要 为 聊天 机 器 人 生成 文本 , 可 以 基于 独 热 编码 向 量 反 向 还 原 出 文本 内 容 , 就 像 自动 演 
奏 钢 琴 可 以 为 不 那么 挑剔 的 观众 演奏 一 曲 所 做 的 那样 。 现在 所 有 需要 做 的 事情 就 是 , 规划 如 何 构 
建 一 个 能 够 以 新 方式 理解 并 组 合 这 些 词 向 量 的 演奏 钢琴 。 最 后 ， 我 们 期 望 聊天 机 器 人 或 者 NLP 
流水 线 能 够 演奏 或 者 说 出 某 些 以 前 我 们 从 没 听 过 的 东西 。 后 面 在 第 9 章 和 第 10 章 讨论 LSTM 模 
型 和 类 似 的 神经 网 络 时 ， 我 们 会 知道 该 如 何 实现 这 一 点 。 

上 述 基于 独 热 向 量 的 句子 表示 方法 保留 了 原始 句子 的 所 有 细节 , 包括 语法 和 词 序 。 至 此 , 我 
们 已 经 成 功 地 将 词 转换 为 计算 机 能 够 “理解 ”的 数值 。 并 且 这 些 数值 还 是 计算 机 非常 喜欢 的 一 类 
数值 : 二 值 数字 0 或 1。 但 是 , 相对 于 上 述 的 短 句 子 而 言 的 整个 表格 却 很 大 。 如 果 考 虑 到 这 一 点 ， 
大 家 可 能 已 经 对 文件 的 大 小 进行 了 扩充 以 便 能 够 存储 上 述 表格 。 但 是 , 对 长 文档 来 说 这 种 做 法 不 
太 现实 ， 此 时 文档 的 大 小 ( 上述 向 量 组 成 的 表格 的 长 度 ) 会 急剧 增加 。 英 语 中 包含 至 少 20 000 
个 常用 词 ， 如 果 还 要 考虑 人 名 和 其 他 专用 名 词 的 话 , 词 的 数量 就 会 达到 数 百 万 个 。 对 于 要 处 理 的 
每 篇 文档 , 其 独 热 表示 方法 都 需要 一 个 新 的 表格 ( 矩阵 ), 这 基本 上 相当 于 得 到 了 文档 的 原始 “ 映 
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Q@ 这 里 说 的 能 恢复 原始 文档 没有 考虑 分 词 器 中 用 于 分 隔 词 的 不 同 空白 符 。 如 果 分 词 器 不 保留 在 分 词 中 丢掉 
的 空白 符 的 话 ， 要 完全 恢复 原始 文档 是 不 可 能 的 。 如 果 分 词 器 不 保留 这 些 信息 ， 就 没 法 知道 词 之 间 应 该 
插入 的 到 底 是 空格 、 换 行 符 、 制 表 符 还 是 什么 都 不 插入 。 但是， 空白 符 的 信息 内 容量 不 大 ， 在 大 部 分 英 
文 文档 中 可 以 忽略 不 计 。 当 然 ， 在 很 多 现在 的 NLP 分 析 器 和 分 词 器 中 ， 如 果 需 要 的 话 ， 都 会 保留 空白 
符 的 信息 。 
@ 参考 维基 百科 中 的 “Player piano” 条 目 。 
@) 详 见 维基 百科 中 标题 为 “Music box” 的 网 页 。 
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像 ”， 如 果 大 家 做 过 一 些 图 像 处 理 的 话 ， 就 知道 如 果 要 从 数据 中 提取 有 用 信息 的 话 就 必须 进行 降 
维 处 理 。 

下 面 简单 地 用 数学 演算 一 下 , 以 便 大 概 了 解 这 些 “ 自 动 演奏 钢琴 纸 卷 "到底 有 多 大 和 多 笨拙。 
大 部 分 情况 下 ，NLP 流水 线 中 使 用 的 词汇 表 中 的 词 条 数 将 远 远 超 过 10 000 或 20 000， 有 时 可 能 
会 达到 数 十 甚至 上 百 万 。 假 设 我 们 的 NLP 流水 线 的 词汇 表 包 含 100 万 个 词 条 ， 并 且 假 设 我 们 拥 
有 3 000 本 很 薄 的 书 ， 每 本 书包 含 3 500 个 句子 ,每 个 句子 平均 由 15 个 词组 成 ,对 薄 书 而 言 ， 上 
述 平均 值 是 比较 合理 的 。 我 们 会 看 到 ， 整 个 表格 ( 矩阵 ) 会 很 大 : 






































>>> num rows = 3000 * 3500 * 15 | 表格 中 的 行 数 


>>> num rows 














D57500000 

>>> num bytes = num rows * 1000000 如 果 表 格 中 每 个 元 素 只 用 一 个 字 节 表 
>>> num bytes 示 的 话 ， 那么 这 一 项 是 总 字 节 数 
57500000000000 


>>> num bytes / le9 
57500 # gigabytes 


>>> _ / 1000 | 在 Python 交互 式 控制 台 , 变量 " "会 被 自动 赋予 前 面 语句 的 输出 值 。 如 果 





























oe Rabytes 忘 了 将 函数 或 表达 式 的 输出 显 式 赋值 给 某 个 变量 ( 如 上 面 对 num _bytes 
和 num_rows 进行 了 显 式 赋值 ) 时 ， 这 种 处 理 方式 十 分 方便 




















即使 将 表格 中 的 每 个 元 素 用 单个 位 来 表示 , 这 个 表格 也 超过 了 百 万 位 乘 以 百 万 位 的 规模 。 在 
单个 位 表示 一 个 元 素 的 情况 下 ,大 概 需 要 20 TB 来 存储 上 述 小 小 书架 上 的 书籍 。 幸运 的 是 , 我 们 
从 来 都 不 需要 用 上 面 的 数据 结构 来 存储 文档 。 只 有 在 一 个 词 一 个 词 处 理 文档 时 , 才 会 临时 在 内 存 
中 使 用 上 述 数据 结构 。 

因此 , 存储 所 有 0 并 试图 记 住 所 有 文档 中 的 词 序 并 没有 太 大 意义 ,也 不 太 现 实 。 我 们 真正 想 
要 做 的 实际 是 将 文档 的 语义 压缩 为 其 本 质 内 容 。 我 们 想 将 文档 压缩 成 单个 向 量 而 不 是 一 张大 表 。 
而 且 我 们 将 放弃 完美 的 “召回 ”过 程 ， 我 们 想 做 的 是 提取 文档 中 的 大 部 分 而 非 全 部 含义 (信息 )。 

如 果 把 文档 分 成 非常 短 的 有 意义 的 块 ， 如 句子 ， 会 怎么 样 ? 如 果 我 们 假设 一 个 句子 的 大 部 分 意义 
都 可 以 从 词 本 身 获得 , 那 又 会 怎么 样 呢 ? 假设 我 们 可 以 忽略 词 的 顺序 和 语法 , 并 将 它们 混合 在 一 个 “ 袋 
子 ” 中 ， 每 个 句子 或 每 篇 短文 档 对 应 一 个 “袋子 ” 。 这 个 假设 被 证 实 为 合理 的 。 即 使 对 于 长 达 几 页 的 文 
档 ， 词 袋 向 量 也 可 以 用 来 概括 文档 的 本 质 内 容 。 对 于 前 面 那 名 关于 Jefferson 的 句子 ， 即 使 把 所 有 的 词 
都 按 词 库 序 重新 排序 ， 人 们 也 可 以 猜 出 那 句 话 的 大 致意 义 。 机 器 也 可 以 实现 这 一 点 。 我 们 可 以 使 用 这 
种 新 的 词 袋 向 量 方法 ， 将 每 篇 文档 的 信息 内 容 压缩 到 更 易 处 理 的 数据 结构 中 。 

如 果 把 所 有 这 些 独 热 向 量 加 在 一 起 ， 而 不 是 一 次 一 个 地 “回放 ”它们 , 我 们 会 得 到 一 个 词 袋 
向 量 。 这 个 向 量 也 被 称 为 词 频 向 量 ， 因 为 它 只 计算 了 词 的 频率 (frequency )， 而 不 是 词 的 顺序 。 
这 个 具备 合理 长 度 的 单一 向 量 可 以 用 来 表示 整 篇 文档 或 整个 句子 , 其 长 度 只 相当 于 词汇 表 的 大 小 
(需要 记录 的 独立 词 条 数 )。 

另 一 种 做 法 是 ， 如 果 正 在 进行 基本 的 关键 词 搜索 ， 可 以 对 这 些 独 热 词 向 量 进行 OR 处 理 ， 从 
而 得 到 一 个 二 值 的 词 袋 向 量 。 在 搜索 中 可 以 忽略 很 多 词 ， 这 些 词 并 不 适合 作为 搜索 词 或 关键 词 。 
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这 对 搜索 引擎 索引 或 信息 检索 系统 的 第 一 个 过 滤器 来 说 都 很 不 错 。 搜 索索 引 只 需要 知道 每 篇 文档 
中 每 个 词 的 存在 与 否 ， 以 帮助 我 们 后 续 找 到 这 些 文档 。 
就 像 把 手臂 放 在 钢琴 上 , 一 次 弹 完 所 有 的 音符 ( 词 ) 并 不 会 给 我 们 带 来 愉快 而 有 意义 的 体验 。 
尽管 如 此 ， 这 种 方法 被 证 实 对 于 帮助 机 器 将 整 组 词 “ 理 解 ” 为 一 个 单元 至 关 重 要 。 如 果 将 词 条 限 
制 在 10 000 个 最 重要 的 词 以 内 ， 就 可 以 将 刚才 虚构 的 包含 3 500 个 句子 的 书 的 数值 表示 压缩 到 
10KB ， 也 就 是 说 上 述 虚构 的 3 000 本 书 构成 的 语料库 大 约会 压缩 到 30 MB 左右 。 独 热 向 量 构 成 
的 序列 仍然 需要 占用 数 百 GB 的 空间 。 

幸运 的 是 ， 对 于 任何 给 定 的 文本 ,词汇 表 中 的 词 具 有 很 少 一 部 分 会 出 现在 这 个 文本 中 。 而 对 
大 多 数 词 袋 应 用 来 说 ,往往 会 保持 文档 的 简洁 性 ， 有 时 候 一 个 句子 就 够 了 。 所 以 , 与 其 一 次 弹 完 
钢琴 上 的 所 有 音符 ， 还 不 如 只 弹 奏 一 些 音符 ( 词 ) 的 组 合 ( 词 袋 向 量 更 像 是 一 个 宽广 而 悦耳 的 钢 
其 和 弦 )， 因 为 它们 能 很 好 地 结合 在 一 起 并 有 意义 。 后 面 介 绍 的 聊天 机 器 人 可 以 处 理 这 些 和 下 ， 
即使 同一 个 语句 中 有 很 多 通常 不 会 一 起 使 用 的 词 而 产生 不 和 谐 , 甚至 这 种 不 和 谐 也 包含 很 多 与 语 
句 相 关 的 有 用 信息 ， 机 器 学 习 流 水 线 也 可 以 利用 这 些 信息 。 

这 就 是 如 何 将 词 条 放 入 一 个 二 值 向 量 的 过 程 , 这 个 向 量 可 以 表示 某 个 具体 词 在 某 个 特定 句子 
中 是 否 存在 。 一 系列 句子 的 上 述 向 量 表示 可 以 “索引 ”起 来 , 从 而 记录 哪个 词 出 现在 哪 篇 文档 中 。 
这 个 索引 和 我 们 在 很 多 教科 书 末尾 看 到 的 索引 是 一 样 的 , 除了 不 记录 词 出 现在 哪个 页 面 , 这 里 可 
以 保存 句子 (或 相关 向 量 ) 的 出 现 位 置 。 教 科 书 的 索引 一 般 只 关心 与 书 的 主题 相关 的 重要 词 ， 但 
是 至 少 到 现在 为 止 我 们 记录 了 每 个 词 。 

下 面 就 是 那 篇 单 文本 文档 ， 文 档 中 只 有 一 个 关于 Thomas Jefferson 的 句子 ， 看 上 去 像 一 个 二 
值 的 词 袋 向 量 : 


>>> sentence bow = {} 
>>> for token in sentence.split(): 





































































































Po sentence bow[token] = 1 
>>> sorted(sentence bow.items () ) 
EC 262 1) 


("Jefferson'，1)， 
('Monticello', 1), 
("Tomas 7 ,Ji}s 
('age', 1), 

(aE Mh 
('began', 1), 
(Building;y yy 
("Ry 
| 





你 可 能 会 注意 到 , Python 的 sorted () 将 十 进 制 数 放 在 字符 之 前 , 同时 将 大 写 的 词 放 在 小 写 
的 词 之 前 。 这 是 ASCII 和 Unicode 字符 集中 的 字符 顺序 。 在 ASCI 表 中 , 大 写字 母 在 小 写字 母 之 
前 。 其 实 ， 词 汇 表 的 顺序 并 不 重要 ， 只 要 所 有 需要 分 词 的 文档 都 采用 相同 的 方式 ， 机 器 学 习 流 水 
线 就 可 以 很 好 地 处 理 任何 词汇 表 顺 序 。 

你 可 能 还 注意 到 ， 使 用 dict (或 任何 词 到 0/1 值 的 成 对 映射 ) 存储 二 值 向 量 不 会 浪费 太 多 
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空间 。 使 用 字典 来 表示 向 量 可 以 确保 只 需要 存储 为 数 不 多 的 1， 因 为 字典 中 的 数 千 甚 至 数 百 万 个 
词 中 只 有 极 少 一 部 分 会 出 现在 某 篇 具体 文档 中 。 我 们 可 以 看 到 , 上 述 表 示 会 比 将 一 袋 间 表示 为 连 
续 的 0 和 1 的 列表 要 高 效 得 多 ， 后 者 用 一 个 “密集 ”向 量 为 词汇 表 ( 如 100 000 个 词 ) 中 的 每 个 
词 都 指定 一 个 位 置 。 即 使 对 于 上 面 这 个 有 关 “Thomas Jefferson” 的 短 句 子 ， 采 用 “密集 ”的 二 值 
向 量 也 需要 100 KB 的 存储 空间 。 因 为 字典 会 “忽略 ”不 存在 的 词 ， 即 那些 标记 为 0 的 词 ， 所 以 用 
字典 表示 时 只 需要 对 10 个 词 的 句子 中 的 每 个 词 用 几 字 节 来 表示 。 而 如 果 把 每 个 词 都 表示 成 指向 词 
库 (为 具体 应 用 构造 的 词 表 ) 内 该 词 所 在 位 置 的 整数 指针 ， 那 么 这 个 字典 的 效率 可 能 会 更 高 。 

接 下 来 , 我 们 使 用 一 种 更 有 效 的 字典 形式 , 即 Pandas 中 的 Series, 可 以 把 它 封装 在 Pandas 
的 DataFrame 中 ， 这 样 就 可 以 向 关于 Thomas Jefferson 的 二 值 向 量 文本 “语料库 ”中 添加 更 多 的 
句子 。 当 在 DataFrame ( 与 语料库 文本 对 应 的 向 量 表 ) 中 添加 更 多 的 句子 和 其 相应 的 词 袋 向 量 时 ， 
所 有 这 些 向 量 之 间 以 及 稀疏 与 密集 词 袋 之 间 的 差距 就 会 变 得 清晰 起 来 : 


>>> import pandas as pd 
>>> df = pd.DataFrame (pd.Series(dict([(token, 1) for token in 




















sentence.split()])), columns=['sent']).T 
>>> df 

26. Jefferson Monticello Thomas age at began building of the 
sent 水 汪 于 汪 本 J 于 生 





下 面 往 语料库 中 增加 一 些 文本 ， 看 看 DataFrame 是 如 何 堆 到 起 来 的 ， 如 代码 清单 2-4 所 示 。 
DataFrame 同时 索引 了 列 (文档 ) 和 行 ( 词 ), 因此 当 需 要 马上 得 到 某 个 问题 答案 时 , 该 DataFrame 
可 以 当成 文档 检索 中 的 倒 排 索引 ( inverse index )。 








代码 清单 2-4 构建 词 袋 向 量 的 DataFrame 





>>> sentences = """Thomas Jefferson began building Monticello at the\ 

age of 26.\n""" <4 
>>> sentences += """Construction was done mostly by local masons and\ 
carpenters.\n""" 





>>> sentences += "He moved into the South Pavilion in 1770.\n" 
>>> sentences += """Turning Monticello into a neoclassical masterpiece\ 
was Jefferson's obsession.™"" 

































































SR 这 是 代码 清单 2-1 中 
六 -人 >>> for i, sent in enumerate (sentences.splLit('Nn')): 定义 的 原始 句子 
corpus['sent{}'.format(i)] = dict((tok, 1) for tok in 
de sent.split()) 
>>> df = pd.DataFrame.from records (corpus) .fillna(0) .astype (int).T 
>>> df[df.columns[:10]] < 
TIO. . 26% "CONnstruction 5 Pavilion South Thomas 
Sent0 0 于 0 SS 0 0 1 
Sent1 0 0 有 0 0 0 
Sent2 0 0 Be 1 1 0 
sent3 0 0 0 0 0 0 
一 般 情况 下 只 需要 使 用 .splitlines0 即 可 ,但 是 这 里 显 式 地 在 每 个 行 ee i 
尾 增加 了 单个 m 字 符 ， 因 此 这 里 需要 显 式 地 对 此 字符 进行 分 害 ee 
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稍微 扫 视 一 下 这 个 例子 ， 就 可 以 发 现 这 些 句子 所 用 的 重合 词 很 少 。 在 词汇 表 的 前 7 个 词 当中 ， 
只 有 Monticello 出 现在 不 止 一 个 句子 当中 。 接 下 来 ， 当 需要 进行 文档 比较 或 者 搜索 相似 文档 时 ， 
必须 要 能 够 利用 流水 线 来 计算 上 述 的 重合 程度 。 一 种 计算 句子 相似 度 的 方法 就 是 使 用 点 积 ( 也 称 
内 积 ) 来 计算 重合 词 条 的 数量 。 























2.2.1 点 积 


在 自然 语言 处 理 中 将 会 有 多 处 用 到 点 积 , 因此 我 们 要 确认 掌握 了 点 积 的 概念 。 如 果 已 经 理解 
这 一 概念 ， 那 么 可 以 跳 过 本 节 。 

点 积 也 称 为 内 积 ( inner product )， 这 是 因为 两 个 向 量 ( 每 个 向 量 中 的 元 素 个 数 ) 或 矩阵 (第 
一 个 矩阵 的 行 数 和 第 二 个 矩阵 的 列 数 ) 的 “内 部 ”维度 必须 一 样 ， 这 种 情况 下 才能 相 乘 。 这 和 关 
系数 据 库 表 的 内 连接 ( inner join ) 操作 很 类 似 。 

点 积 也 称 为 标 积 ( scalar product )， 因 为 其 输出 结果 是 个 单独 的 标量 值 。 这 使 其 有 别 于 又 积 
(cross product ) 这 个 概念 ， 后 者 的 输出 结果 是 一 个 向 量 。 显 然 ， 这 些 名称 体 现 了 标识 符 的 形状 ， 
在 正式 数学 符号 当中 ， 标 积 用 “ ”表示 ， 叉 积 用 “ x ”表示 。 将 参与 标 积 计算 的 两 个 向 量 的 
所 有 对 应 元 素 相 乘 然 后 将 这 些 乘 积 相 加 就 可 以 得 到 最 后 的 标量 结果 。 

代码 清单 2-5 中 给 出 了 一 段 Python 代码 ， 你 可 以 按照 Python 的 一 贯 用 法 在 头脑 里 模拟 运行 
这 段 代码 ， 以 确信 掌握 了 点 积 的 概念 。 











代码 清单 2-5 点 积 计 算 示例 





>>> vl = pd.np.array ([1, 2, 3]) 
>>> v2 = pd.np.array ([2, 3, 4]) 
>>> vl. dot (v2) 





























2 numpy 数组 的 乘积 是 一 种 十 分 

>>> (v1 * Vv2) .sum!() 高 效 的 “向 量 式 ” 运 算 

20 

7 如 果 不 想 降 低 流水 线 的 处 理 速度 ， 就 
不 要 这 样 在 向 量 内 部 进行 迭代 处 理 

提示 点 积 和 和 矩阵 乘积 (matrix product ) 计算 是 等 价 的 ， 后 者 可 以 在 numpy 中 使 用 np.matmul () 








函数 或 者 6 操作 符 来 实现 。 由 于 所 有 的 向 量 都 可 以 转换 成 Nx 1 或 者 1xN 的 和 矩阵， 因此 可 以 使 用 这 
种 短 记 号 作用 于 两 个 列 向 量 (N x 1 )， 其 中 第 一 个 向 量 必须 要 转 置 ， 这 样 才 可 以 相 乘 。 就 像 这 样 
Vl.reshape (-1, 1) .T@ V2.reshape(-1, 1) ,最 后 ,就 会 在 一 个 1x1 和 矩阵 arrary([[20]]) 
中 输出 最 后 的 标量 结果 。 


2.2.2 ”度量 词 袋 之 间 的 重合 度 


如 果 能 够 度量 两 个 向 量词 袋 之 间 的 重合 度 , 就 可 以 很 好 地 估计 它们 所 用 词 的 相似 程度 ,而 这 
也 是 它们 语义 上 重合 度 的 一 个 很 好 的 估计 。 因 此 ,下 面 使 用 刚刚 学 到 的 点 积 来 估计 一 些 新 句子 和 
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原始 的 Thomas Jefferson 句子 ( sent0 ) 之 间 的 词 袋 向 量 重合 度 ， 如 代码 清单 2-6 所 示 。 


代码 清单 2-6 两 个 词 红 向量 之 间 的 重合 词 数 计算 





>>> df = df.T 
>>> df.sent0.dot (df.sent]1) 


>>> df.sent0.dot (df.sent2) 


>>> df.sent0.dot (df.sent3) 





上 面 的 结果 表明 ， 有 一 个 词 同 时 出 现在 sent0 和 sent2 中 。 同 理 ， 某 个 词 同时 出 现在 sent0 
和 sent3 中 。 词 之 间 的 重合 度 可 以 作为 句子 相似 度 的 一 种 度量 方法 。 有 趣 的 是 ， 那 个 古怪 的 句 
子 sent1， 是 其 中 唯一 没有 直接 提 到 Jefferson 或 者 Monticello 的 句子 ,但 是 它 使 用 了 一 个 完全 
不 同 的 词 集合 来 表达 其 他 匿名 人 士 的 信息 。 

下 面 给 出 了 一 种 找 出 sent0 和 sent3 当中 那个 共享 词 的 方法 , 该 词 使 代码 清单 2-6 中 最 后 
一 个 点 积 计算 的 结果 为 1。 











>>> [(k, v) for (k，V) in (df.sent0 & df.sent3).items() if v] 
[('Monticello', 1)] 




















这 是 你 的 自然 语言 文档 ( 句子 ) 的 第 一 个 向量 空间 模型 ( vector space model，VSM )。 对 于 
词 袋 向 量 , 不 仪 可 以 使 用 点 积 ， 也 可 以 定义 其 他 的 向 量 运算 ， 如 向 量 加 、 减 、OR 与 AND 等 ， 
甚至 还 可 以 采用 类 似 欧 几 里 得 距离 或 者 向 量 夹 角 这 样 的 计算 。 将 文档 表示 成 二 值 向 量具 有 强大 
的 作用 ， 多 年 来 ， 它 一 直 是 文档 检索 和 搜索 的 支柱 。 所 有 现代 CPU 都 有 硬 连 线 内 存 寻 址 指令 ， 
这 些 指令 可 以 有 效 地 哈 希 、 索 引 和 搜索 大 量 这 样 的 二 值 向 量 。 虽然 这 些 指 令 是 为 男 一 个 目的 ( 索 
引 内 存 位 置 以 从 内 存 中 检索 数据 ) 而 构建 的 , 但 是 它们 在 搜索 和 检索 文本 的 二 值 向 量 运 算 中 同 
样 有 效 。 




















2.2.3 ”标点 符号 的 处 理 


某 些 情况 下 ， 除 空格 之 外 还 有 一 些 字符 用 于 将 句子 中 的 词 分 隔 开 。 大 家 应 该 仍然 记得 词 条 
“26.” 末 尾 那 个 讨厌 的 名 号。 分 词 器 不 仅 可 以 利用 空格 还 可 以 基于 标点 符号 ( 如 逗号 、 句号、 分 
号 甚至 连 字符 ) 将 句子 切 开 。 在 某 些 情况 下 , 我们 希望 这 些 标点 符号 也 像 词 一 样 ,被 看 成 独立 的 
词 条 。 但是， 在 男 一 些 情况 下 可 能 又 要 忽略 这 些 标点 符号 。 

在 前 面 那个 例子 中 , 对 于 句子 中 的 最 后 一 个 词 条 “26.”, 由 于 其 末尾 句号 的 原因 而 导致 出 错 。 
末尾 的 句号 可 能 会 对 NLP 流水 线 的 后 续 部 分 如 词 干 还 原 造成 误导 ， 因 为 词 干 还 原 的 目的 是 利用 
规则 将 相似 词 聚 成 组 ， 而 这 些 规则 往往 要 基于 一 致 的 词 拼写 结果 。 代 码 清单 2.7 给 出 了 将 标点 作 
为 分 隔 符 的 一 种 做 法 。 
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代码 清单 2-7 ”利用 正则 表达 式 对 Monticello 句子 进行 切 分 





>>> import re 
























































>>> sentence = """Thomas Jefferson began building Monticello at the\ 
agerof. 26 

>>> tokens = re.splitl(r'[-\s.,;!?]+', sentence) 

>>> tokens 

['Thomas', 这 将 会 基于 至 少 出 现 一 次 ( 注意 正则 表达 
'Jefferson', 式 中 右 方 括 号 后 面 的 '+' ) 的 空格 或 者 标点 
'began', 符号 来 对 句子 进行 分 割 。 参 考 下 面 的 “ 正 
" building '， 则 表达 式 的 编译 时 机 ”部 分 
'Monticello', 
a 
'the', 
'age', 
GE 
1 20 


pa 

我 们 约定 将 使 用 更 多 的 正则 表达 式 , 希望 大 家 比 最 初 使 用 时 更 加 理解 它们 。 如 果 不 是 这 样 的 
话 , 下 面 的 “正则 表达 式 的 编译 时 机 ”部 分 会 介绍 正则 表达 式 的 每 个 字符 的 意义 。 想 更 加 深入 地 
了 解 正 则 表达 式 ， 参 见 附录 B。 


1. 正则 表达 式 的 工作 机 理 


这 里 给 出 了 代码 清单 2-7 中 正则 表达 式 的 工作 机 理 。 方 括号 [和 ] 表示 一 个 字符 类 ， 即 字符 集 。 
右 方 括号 ] 后 面 的 + 表示 必须 匹配 方 括号 内 的 一 个 或 多 个 字符 。 字 符 类 中 的 \s 是 一 个 预定 义 字 符 
类 的 快捷 表示 ， 该 字符 类 包括 所 有 的 空白 符 ， 如 殴 击 空格 键 、 制 表 键 或 者 回 车 键 产生 的 字符 。 字 
符 类 r'[\s] ' 等 价 于 上 " \t\n\r\x0b\x0c'。6 个 空白 符 分 别 是 空格 ('' )、 制 表 符 ('\t' )、 
换行 符 ('\n' )、 回 车 符 ('\r' ) 以 及 换 页 符 ('\f£' )。 

这 里 没有 使 用 任何 字符 区 间 , 后 面 可 能 会 用 到 。 字 符 区 间 是 一 种 特定 的 字符 类 , 方 括号 中 采 
用 连 字 符 来 表示 ， 如 r' [a-z] ' 可 以 匹配 所 有 的 小 写字 母 。 字 符 区 间 r' [0-9]' 匹 配 任何 从 0 
到 9 的 数字 ， 其 等 价 于 rx' [0123456789]'。 正 则 表达 式 xr' [_ a-zA-z]' 表 示 可 以 匹配 任意 下 
划 线 字符 或 者 英文 字母 ( 大 小 写字 母 )。 

左 方 括号 之 后 的 连 字符 ( - ) 是 正则 表达 式 的 一 个 惯 有 用 法 。 连 字符 不 能 放 在 方 括号 内 的 任 
何其 他 地 方 , 否则 正则 表达 式 解 析 器 会 认为 这 里 意味 着 有 一 个 字符 区 间 , 如 r' [10-9]'。 为 了 表 
明确 实 是 一 个 真正 的 连 字 符 , 必须 将 其 放 在 紧 挨 在 该 字符 类 左 方 括号 的 后 面 。 因此, 任何 需要 表 
明 是 真正 连 字符 的 地 方 ， 都 应 使 其 要 么 是 左 方 括号 后 的 第 一 个 字符 ， 要 么 通过 转 义 符 来 表示 。 
re.split 郑 数 从 左 到 右 遍 历 输入 字符 串 〈 即 函数 的 第 二 个 参数 sentence ) 中 的 每 个 字符 ， 
并 根据 正则 表达 式 ( 即 函 数 的 第 一 个 参数 ，r' [-\s.，; 1!?]+ ' ) 进行 匹配 。 一 旦 发 现 有 匹配 上 的 
字符 ， 它 会 在 匹配 上 的 字符 之 前 和 之 后 分 割 字 符 串 ， 同 时 跳 过 匹配 的 一 个 或 多 个 字符 。re. split 
那 一 行 的 处 理 就 像 str .split 一 样 ， 但 它 适 用 于 任何 与 正则 表达 式 匹配 的 字符 或 多 字符 序列 。 

圆 括 号 (和 ) 用 于 对 正则 表达 式 进行 分 组 ， 就 像 它 们 用 于 对 数学 、Python 和 大 多 数 其 他 编程 
























































异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 





40 


语言 





第 2 章 ”构建 自己 的 词汇 表 一 一 分 词 





言 表 达 式 进行 分 组 一 样 。 这 些 圆 括号 强制 正则 表达 式 匹配 圆 括号 内 的 整个 表达 式 ,， 然后 再 尝试 








匹配 圆 括号 后 面 的 字符 。 
2. 改进 的 用 于 分 词 的 正则 表达 式 





我 们 对 正则 表达 式 进行 编译 从 而 加 快 分 词 需 的 运行 速度 。 编 译 后 的 正则 表达 式 对 象 在 很 多 方 





























面 都 比较 方便 ， 而 不 仅仅 是 速度 。 
正则 表达 式 的 编译 时 机 


用 。 























Python 中 的 正则 表达 式 模块 可 以 对 正则 表达 式 进行 预 编译 *， 这 样 就 可 以 在 代码 库 中 对 它们 ji 人 
例如 ， 有 一 个 正则 表达 式 可 以 提取 电话 号 码 。 可 以 使 用 *e.compile () 对 该 表达 式 进 行 预 编 译 ， 然 

































































后 可 以 将 其 以 参数 方式 传递 给 分 词 函 数 或 者 类 。 因 为 Python 会 对 最 近 的 MAXCACHE=100 个 正则 表达 式 















































的 编译 对 象 进行 缓存 ， 所 以 上 述 处 理 基 本 不 会 带 来 速度 上 的 好 处 。 但 是 如 果 有 超过 100 个 不 同 的 正则 表 
达 式 在 同时 工作 , 或 者 想 调 用 正则 表达 式 的 方法 而 不 是 相应 的 re 函数 的 话 ，re .compile 就 会 很 有 用 


















































区 人 过 em seomeoe ee Se 

>>> tokens = pattern.split (sentence) 

E> eol Neems 

Ee 1 a 'age', 1 i et 1 og Re 0 Sn 




















a 参考 Stack Overflow 网 站 或 者 最 新 的 Python 文档 来 获得 更 多 细节 信息 。 











上 面 这 个 简单 的 正则 表达 式 有 助 于 将 最 后 一 个 词 条 “26.” 的 末尾 句号 分 隔 出 去 。 但 是 ， 这 












































样 做 会 遇 到 一 个 新 问题 。 我 们 必须 将 不 想 放 人 词汇 表 中 的 空 me， 符号 过 滤 掉 。 人 参考 下 面 的 
代码 片段 以 及 图 2-2。 
>>> sentence = """Thomas Jefferson began building Monticello at the\ 
age 6f" 2Z6N 
>>> tokens = pattern.split (sentence) 
>>> [x for x in tokens if x and x not in '- \t\n.,;!?'] 
['Thomas', 
'Jefferson', 如 果 想 练习 使 用 lambda 表达 式 和 
'began', filter(0) 函 数 ， 就 使 用 list(filter(lambda 
'building', x: Xx if x and x not in '- \t\n.,;!?' else 
'Monticello', None, tokens)) 
“ty 
'the', 
"age "， 
"Es 
6 


的 词 条 


Thomas | Jefferson | began | building | Monticello| at | the | age | of | 26|. 


| 2-2 ” 切 分 后 的 短语 


因此 , Python 内 置 的 re 包 看 上 去 对 于 上 述 示例 句子 处 理 得 很 好 ,只 要 注意 过 滤 掉 一 些 不 想 要 
即 可 。 实 在 没有 别 的 理由 需要 从 别 的 地 方 找 一 个 其 他 的 正则 表达 式 包 ， 除 非 满足 以 下 条 件 。 
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使 用 Python 中 新 的 正则 表达 式 包 的 时 机 




















Python 中 有 一 个 新 的 正则 表达 式 包 regex， 它 将 最 终 蔡 代 re 包 。 它 是 完 
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pip 命令 从 pypi 中 安装 。regex 包含 一 些 新 的 特性 ， 




















国 集合 的 重合 匹配 ; 
多 线程 ; 
特性 完备 地 支持 Unicode; 


























近似 正则 表达 式 匹 配 ( 类 似 于 UNIX 系统 的 TRE agrep ); 
更 大 的 MAXCACHE 默认 值 ( 500 个 正则 表达 式 )。 














后 向 兼容 的 ， 可 以 通过 
中 包括 对 如 下 方面 的 支持 : 
























































等 包 管 理工 具 来 将 它 作 为 一 个 额外 的 包 安 装 : 


$ pip install regex 





























要 获得 有 关 regex 的 更 多 信息 ， 可 以 参考 PyP| 网 站 。 


正如 大 家 能 想到 的 那样 ， 分 词 器 很 容易 就 变 得 复杂 无 比 。 在 某 种 情况 下 ， 我 们 可 能 想 在 句号 (. ) 

处 进行 分 割 ， 但 是 这 时 候 句 号 后 面 不 能 跟着 数字 ， 否 则 ， 我 们 可 能 会 把 小 数 切 开 。 在 另 一 种 情况 下 ， 

我 们 可 能 不 会 在 句号 后 分 割 句 子 , 这 是 因为 此 时 句号 是 微笑 表情 符号 的 一 部 分 , 就 像 在 推 文中 的 那样 。 
有 多 个 Python 库 可 以 用 于 分 词 ， 它 们 的 优 缺 点 如 下 : 
加 ”spaCy 一 一 精确 、 灵 活 、 快 速 ， 用 Python 语言 编写 ; 




















图 ”Stanford CoreNLP 一 一 更 精确 ， 但 是 不 够 灵活 、， 
加 ”NLTK 一 一 很 多 NLP 竞赛 和 对 比 的 标 配 ， 流 行 ， 用 Python 语 
NLTK 和 Stanford CoreNLP 历史 最 悠久 ， 在 很 多 学 术 论 文中 的 NLP 算法 的 对 比 讨 
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央 速 ， 依 赖 Java 8; 
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编写 。 














尽管 regex 将 最 终 替 代 re 包 ， 并 且 它 也 会 与 re 保持 完全 的 后 向 兼容 ， 但 现在 大 家 必须 利用 pip 





E 测 中 使 用 


也 最 广泛 。 尽 管 Stanford CoreNLP 具有 Python API， 但 它 还 要 依赖 Java 8 的 CoreNLP 后 端 ， 
而 需要 另外 安装 和 配置 。 因 此 , 我 们 在 这 里 可 以 使 用 NLTK ( Natural Language Toolkit ) 分 词 器 来 











快速 运行 示例 ， 这 将 帮助 大 家 快速 重 现在 学 术 论文 或 者 博客 上 看 到 的 实验 结果 。 








我 们 可 以 使 用 NLTK 孙 数 RegexpTokenizer 重 现 上 面 的 简单 分 词 器 示例 : 


>>> from nltk.tokenize import RegexpTokenizer 
>>> tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+') 


>>> tokenizer.tokenize (sentence) 
[Thnomas’ 7 
'Jefferson', 
'began', 
"Bailding.y 
'Monticello', 
“ty 
'the', 
'age', 
Ee 
ON 
| 
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六 里 的 表述 是 针对 英文 语句 而 言 的 ， 因 为 英文 中 的 句号 与 小 数 点 都 是 “.”。 
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上 述 分 词 器 比 原来 那个 要 稍微 好 点 儿 , 它 忽略 了 空白 符 词 条 , 并 且 可 将 不 包含 其 他 标点 符号 
的 词 条 中 的 句 尾 标点 符号 分 隔 开 来 。 

一 个 更 好 的 分 词 嚣 是 来 自 NLTK 包 的 TreebankWordTokenizer 分 词 器 , 它 内 置 了 多 种 常见 的 英语 
分 词 规则 。 例 如 ， 它 从 相 邻 的 词 条 中 将 短语 结束 符号 (?! .7，) 分 开 ， 将 包含 句号 的 小 数 当成 单个 
词 条 。 另 外 ， 它 还 包含 一 些 英文 缩 略语 的 规则 ， 例 如 ,“don't” 会 切 分 成 ["do"，"n't"]。 该 
分 词 器 将 有 助 于 NLP 流水 线 的 后 续 步 又 ， 如 词 干 还 原 。 我 们 可 以 从 自然 语言 工具 包 (NLTK ) 
网 站 获取 所 有 TreebankWordTokenizer 分 词 器 的 规则 。 下 面 给 出 一 段 代 码 ， 代 码 的 运行 结果 如 
图 2-3 所 示 。 


>>> from nltk.tokenize import TreebankWordTokenizer 
>>> sentence = """Monticello wasn't designated as UNESCO World Heritage\ 
STCtertrntil 98 
>>> tokenizer = TreebankWordTokenizer () 
>>> tokenizer.tokenize (sentence) 

['Monticello', 

'was', 

9 

'designated', 

1 

'UNESCO', 

'World', 

'Heritage', 

SEE 

et hb 

"1987 "3 

| 

















Monticello |was| n't| designated |as| UNESCO|World| Heritage| Site| until| 1987| . 
和 2-3 ”分 词 后 的 短语 

















3. 缩 略 语 


大 家 可 能 会 疑惑 为 什么 要 把 缩 略语 wasn't 切 分 成 was 和 n't。 对 一 些 应 用 来 说 ,例如 使 
用 句法 树 的 基于 语法 的 NLP 模型 , 将 词 分 成 was 和 not 很 重要 , 这 样 可 以 使 句法 树 分 析 器 能 够 
将 与 已 知 语法 规则 保持 一 致 并 且 可 预测 的 词 条 集 作为 输入 。 存 在 大 量 标准 和 非 标准 的 缩 略 词 处 理 
方法 。 通 过 将 缩 略 语 还 原 为 构成 它 的 各 个 词 ， 只 需要 对 依存 树 分 析 咒 或 者 句法 分 析 器 进行 编程 以 
预见 各 词 的 不 同 拼写 形式 ， 而 不 需要 面 对 所 有 可 能 的 缩 略 语 。 


对 社交 网 络 (如 Twitter 和 Facebook) 的 非 规范 文本 进行 分 词 

NLTK 库 中 包含 一 个 分 词 器 casual tokenize， 该 分 词 器 用 于 处 理 来 自 社 交 网 络 的 非 规范 的 包含 
表情 符号 的 短文 本 。 在 这 些 社交 网 络 中 ， 文 本 的 语法 和 拼写 习惯 千差万别 。 

casual tokenize 函数 可 以 剥离 文本 中 的 用 户 名 ， 也 可 以 减少 词 条 内 的 重复 字符 数 : 






































cb 
































>>> from niltk.tokenize.casual import casual tokenize 
>>> message = """RT @TJMonticello Best day everrrrrrr at Monticello.\ 
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Awesommmmmmeeeeeeee day :*)"™"" 
>>> casual tokenize (message) 
[RT "TIMOnti ell 


SEE 
'Awesommmmmmeeeeeeee', 'day', ':*)'] 
>>> casual tokenize (message, reduce len=True, strip handles=True) 
[Ee 
SEA 
'Awesommmeee', '‘'day', ':*)'] 


2.2.4 将 词汇 表 扩 展 到 n-gram 

我 们 重新 回 到 本 章 开 头 的 那个 “ice cream” 问 题 。 还 记得 我 们 说 过 要 把 “ice” 和 “cream” 
放 在 一 起 不 分 开 : 

T scream, you scream, we all scream for ice cream. 


但 是 ,我 并 不 认识 很 多 为 “cream” 尖 叫 的 人 ,我 也 相信 没有 人 会 为 “ice” 尖 叫 ， 除 非 他 们 
在 冰 上 滑行 和 摔 倒 。 因 此 ， 我 们 需要 一 种 方法 在 词 向 量 中 使 “ice” 和 “cream” 在 一 起 。 




















1. n-gram 概念 


n-gram 是 一 个 最 多 包含 n 个 元 素 的 序列 , 这些 元 素 从 由 它们 组 成 的 序列 ( 通常 是 字符 串 ) 中 
提取 而 成 。 一 般 来 说 ，n-gram 的 “元 素 ” 可 以 是 字符 、 音 节 、 词 ， 其 至 是 像 “A”“T”“G”“C” 
等 表示 DNA 序列 的 符号 。 

本 书 中 我 们 只 关注 词 的 n-gram, 而 不 关注 字符 的 n-gram。 因此, 本 书 中 提 到 的 2-gram 指 的 
是 两 个 词 构成 的 对 , 如 “ice cream”。 当 提 到 3-gram 时 , 我 们 指 的 是 3 个 词 构成 的 三 元 组 , 如 “beyond 
the pale”“Johann Sebastian Bach” 或 者 “riddle me this”。n-gram 不 一 定 要 求 像 复合 词 一 样 有 特定 
的 含义 ， 而 仅仅 要 求 出 现 频 率 足 够 高 以 引起 词 条 计数 器 的 注意 。 

为 什么 要 使 用 n-gram 呢 ? 正如 前 面 所 看 到 的 那样 ， 当 一 个 词 条 序列 向 量化 成 词 袋 向 量 时 ， 
它 丢 失 了 词 序 中 所 包含 的 很 多 含义 。 将 单词 条 的 概念 扩展 到 多 词 条 构成 的 n-gram，NLP 流水 线 
就 可 以 保留 语句 词 序 中 隐 舍 的 很 多 含义 。 例 如 ， 否 定 词 “not” 就 会 和 它 所 属 的 相 邻 词 在 一 起 。 
如 果 分 词 不 考虑 n-gram， 那 么 “not” 就 会 自由 漂移 ， 而 不 会 固定 在 茶几 个 词 周 围 ， 其 否定 的 含 
义 可 能 就 会 与 整个 句子 甚至 整 篇 文档 ,而 不 是 只 与 某 几 个 相 邻 词 关联 。 相 比 于 词 袋 向 量 中 的 1-gram， 
2-gram “was not” 保 留 了 两 个 独立 词 “not” 和 “was” 的 更 多 部 分 的 含义 。 在 流水 线 中 如 果 把 
个 词 和 其 相 邻 词 捆 绑 起 来 ， 就 会 使 词 的 一 部 分 上 下 文 被 保留 。 























































































































Q( 语言 及 NLP 技术 常用 于 从 DNA 和 RNA 中 拾取 信息 。 维 基 百 科 “ 核 酸 序 列 ”(Nucleic Acid Sequence ) 
的 网 页 上 有 一 个 核酸 符号 表 ， 它 能 够 将 核酸 语言 翻译 成 人 类 可 读 的 语言 。 

@ 在 数据 库 课程 或 者 PostgreSQL (postgres ) 的 文档 中 ， 我 们 可 能 已 经 学 到 3-gram 索引 相关 的 知识 。 
但 是 这 里 的 三 元 组 是 字符 的 3-gram。 这 种 索引 能 够 支持 SQL 全 文 搜索 查询 中 的 带 有 “%”“~” 或 者 “*” 
符号 的 语句 ， 能 够 从 大 规模 字符 串 数据 库 快 速 检 索 模 糊 匹 配 的 字符 串 。 
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I 








在 第 3 章 中 ， 我 们 会 介绍 如 何 从 这 些 n-gram 集合 中 识别 那些 相对 而 言 更 具 信 息 量 的 子 集 ， 
这 个 子 集中 的 n-gram 可 以 用 于 减少 NLP 流水 线 需要 记录 的 词 条 (n-gram ) 数 。 否 则 ，NLP 流水 
线 就 需要 存储 和 维护 其 遇 到 的 所 有 词 序 列 。z-gram 的 优先 级 会 帮助 识别 “Thomas Jefferson” 和 
“ice cream”， 而 对 “Thomas Smith” 或 “ice shattered” 则 并 不 特别 关注 。 在 第 4 章 中 ， 我 们 会 把 
词 对 甚至 更 长 的 词 序列 和 它们 的 实际 含义 关联 起 来 ， 而 无 视 每 个 独立 词 本 身 的 意义 。 但 是 现在 ， 
我 们 要 求 分 词 器 能 够 生成 这 些 n-gram 序列 。 
下 面 给 出 对 原来 的 那 条 有 关 Thomas Jefferson 的 句子 进行 2-gram 分 词 的 结果 , 在 给 出 结果 的 
同时 ， 大 家 也 能 了 解 我 们 要 构建 的 分 词 器 的 运行 机 理 。 
>>> tokenize 2grams ("Thomas Jefferson began building Monticello at the\ 
age of 26.") 
['Thomas Jefferson', 
"Jefferson began', 
'began building', 
"building Monticello', 
'Monticello at', 
"at the', 
"the age', 


"age of', 
"Of ,26] 


相信 大 家 能 看 到 ， 上 述 2-gram 序列 会 比 原来 的 词 序列 包含 更 多 的 信息 。 由 于 NLP 流水 线 的 
后 续 步 又 只 能 访问 前 面 分 词 器 生成 的 词 条 ， 因 此 ， 我 们 必须 要 让 后 续 阶 段 知道 “Thomas” 并 不 
与 “Isaiah Thomas” 或 “Thomas & Friends” 这 两 部 动画 片 有 关 。n-gram 是 当 数据 在 流水 线 中 传 
输 时 保留 上 下 文 信息 的 一 种 方法 。 

下 面 给 出 的 是 原始 的 1-gram 分 词 器 : 


















































>>> sentence = """Thomas Jefferson began building Monticello at the\ 
Ade E126. 

>>> pattern = re.compile(r"([-\s.,;!?])+") 

>>> tokens = pattern.split (sentence) 

>>> tokens = [x for x in tokens if x and x not in '!- \t\n.,;!?'] 


>>> tokens 
上 
'Jefferson', 
'began', 
'building', 
'Monticello', 
"a 
'the', 
'age', 
en 
.26 


下 面 是 nltk 中 的 n-gram 分 词 器 的 实际 运行 结 


>>> from nltk.util import ngrams 
>>> list (ngrams (tokens, 2)) 
[('Thomas', 'Jefferson'), 
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('Jefferson', 'began'), 

('began', 'building'), 

('building', 'Monticello'), 

('Monticello', ‘at'), 

(eat Ee} 

('the', 'age'), 

('age', "of')， 
(OE 226] 

>>> list (ngrams (tokens, 3)) 
[('Thomas', ‘Jefferson', 'be 
('Jefferson', 'began', 'bui 
('began', 'building', "Mont 
('building', 'Monticello', 
('Monticello', ‘'at', 'the') 
(Cate "tlhe, aye) 
('the', ‘age', ‘'of'), 
(vagde ee VOfYS .26") 
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gan'), 
Taino yy 
主人 局 二 TD 
at yy 


了 


提示 为 了 提高 内 存 效率 ，NLTK 库 的 ngrams 函数 返回 一 个 Python 生成 器 (generator )。Python 


生成 器 是 一 种 智能 函数 ， 其 行为 类 


似 于 迭代 器 (iterator )， 一 次 只 生成 一 个 元 素 ， 而 不 是 一 次 返回 





整个 序列 。 这 在 for 循环 中 非常 有 用 ， 在 for 循环 中 ， 生 成 器 将 加 载 每 个 单独 项 ， 而 不 是 将 整个 项 
列表 加 载 到 内 存 中 。 但 是 ,如果 想 一 次 查看 所 有 返回 的 n-gram， 那么 请 像 前 面 的 示例 那样 将 生成 器 转 
换 为 列表 。 请 记 住 ， 应 该 只 在 交互 式 会 话 而 不 是 在 长 时 间 运 行 的 大 型 文本 分 词 任务 中 执行 上 述 操作 。 


在 上 面 的 代码 中 ,n-gram 以 一 个 个 元 组 ( tuple ) 的 方式 来 提供 , 但 是 如 果 大 家 希望 流水 线 中 

















的 所 有 词 条 都 是 字符 串 的 话 , 那么 也 可 以 很 容易 地 将 这 些 元 组 连接 在 一 起 。 这 将 允许 流水 线 的 后 








续 阶段 预期 输入 的 数据 类 型 保持 一 致 ， 即 都 是 字符 串 序列 ， 


>>> two grams = list (ngrams\( 


tokens, 2)) 


>>> [™ ".join(x) for x in two grams] 


['Thomas Jefferson', 

'Jefferson began', 
"began building', 
'building Monticello', 
'Monticello at', 
2 A 
"the age', 
"age of', 
GE 20" 


看 到 这 里 , 大 家 可 能 会 有 一 个 疑问 。 看 一 下 上 面 的 那个 例子 , 可 以 想象 词 条 “Thomas Jefferson” 
会 在 多 篇 文档 中 出 现 。 而 “0f 26” 和 “Jefferson began” 这 些 2-gram 可 能 出 现 得 非常 少 。 如 果 词 条 
或 者 n-gram 出 现 得 特别 少 ， 它 们 就 不 会 承载 太 多 其 他 词 的 关联 信息 ， 而 这 些 关联 信息 可 以 用 于 帮助 


识别 文档 的 主题 ， 这 些 主题 可 以 将 多 











篇 文档 或 者 多 个 文档 类 连接 起 来 。 因 此 ， 军 见 的 n-gram 对 分 类 


问题 作用 不 显著 。 我 们 可 以 想象 ， 大 部 分 2-gram 都 十 分 罕见 ， 更 不 用 说 3-gram 和 4-gram 了 。 
由 于 词 的 组 合 结果 要 比 独立 的 词 多 得 多 ， 因 此 词汇 表 的 大 小 会 以 指数 方式 接近 语料库 中 





所 有 文档 中 的 n-gram 数 。 如 果 特 和 





F 向 量 的 维度 超过 所 有 文档 的 总 长 度 , 特征 提取 过 程 就 不 会 
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达到 预期 的 目的 。 事 实 上 机 器 学 习 模 型 和 向 量 之 间 的 过 拟 合 几乎 不 可 能 避免 ， 这 是 由 于 向 量 
的 维 数 多 于 语料库 中 的 文档 数 而 造成 的 。 在 第 3 章 中 ， 我 们 会 使 用 文档 频率 统计 数据 来 识别 
那些 罕见 的 n-gram, 这 些 n-gram 对 机 器 学 习 来 说 用 处 不 大 。 通常 来 说 , 出 现 次 数 过 少 ( 例如 ， 
出 现 的 文档 篇 数 不 多 于 3 ) 的 n-gram 会 被 过 滤 掉 。 这 种 场景 可 以 参考 第 1 章 硬 币 分 拣 机 中 过 
渡 罕 见 词 条 的 过 滤器 。 

接 下 来 考虑 一 个 相反 的 问题 。 考 虑 上 一 个 短语 中 的 2-gram“at the" 。 这 个 词组 合 可 能 并 不 罕 
见 。 实 际 上 ,， 它 可 能 十 分 常见 ， 在 大 部 分 文档 中 都 会 出 现 , 在 这 种 情况 下 无 法 通过 它 区 分 其 在 不 
同文 档 中 的 意义 ,并 且 它 也 几乎 没有 什么 预测 能 力 。 就 像 词 或 者 其 他 词 条 一 样 ， 出 现 过 于 频繁 的 
n-gram 通常 会 被 过 滤 掉 。 例 如 ， 如 果 某 个 词 条 或 n-gram 在 语料库 中 的 超过 25% 的 文档 中 出 现 ， 
那么 它 通常 会 被 忽略 。 这 等 价 于 第 1 章 硬币 分 拣 机 中 的 停 用 词 过 滤器 。 这 些 过 滤器 对 单个 词 条 和 
n-gram 都 同样 有 用 。 实 际 上 ， 它 们 的 用 处 甚至 会 更 大 。 
2. 停 用 词 

在 任何 一 种 语言 中 , 停 用 词 (stop word ) 指 的 是 那些 出 现 频 率 非常 高 的 常见 词 , 但 是 对 短语 
的 含义 而 言 ， 这 些 词 承 载 的 实质 性 信息 内 容 却 少 得 多 。 一 些 常见 的 停 用 词 的 例子 如 下 : 

国 a,an 


国 the, this 


国 and, or 
























































国 of, on 

从 传统 上 说 , NLP 流水 线 都 会 剔除 停 用 词 ， 以 便 减 小 从 文本 中 提取 信息 时 的 计算 压力 。 虽 然 
词 本 身 可 能 承载 很 少 的 信息 ， 但 是 停 用 词 可 以 提供 n-gram 中 的 重要 关系 信息 。 例 如 ， 下 面 的 两 
个 例子 : 

加 Mark reported to the CEO 











国 Suzanne reported as the CEO to the board 

在 NLP 流水 线 中 ， 我 们 可 能 会 产生 reported to the CEO 和 reported as the CEO 
这 样 的 4-gram。 如 果 从 这 些 4-gram 中 剔除 了 停 用 词 ， 那 么 上 面 两 个 例子 都 会 变 成 “reported CEO”， 
这 样 就 会 丢失 其 中 的 上 下 属 关系 信息 。 第 一 个 例子 中 ，Mark 可 能 是 CEO 的 一 个 助理 ， 而 第 二 
个 例子 中 ，Suzanne 则 是 向 董事 会 汇报 的 CEO。 不 幸 的 是 ， 保 留 流水 线 中 的 停 用 词 会 带 来 另 
个 问题 : 它 会 增加 所 需 的 n-gram 的 长 度 ( 即 二 )， 长 度 增加 是 为 了 保住 上 述 由 原本 毫 无 意义 的 
停 用 词 所 产生 的 关联 关系 "。 基 于 这 个 原因 ， 如 果 要 避免 上 述 例子 中 的 歧义 ,我 们 至 少 要 保留 
4-gramo 

如 何 设 计 停 用 词 过 滤器 依赖 具体 的 应 用 。 词 汇 表 的 大 小 会 决定 NLP 流水 线 所 有 后 续 步 骤 的 计 
算 复杂 性 和 内 存 开销 。 但 是 ， 停 用 词 只 占 词汇 表 的 很 少 一 部 分 。 一 个 典型 的 停 用 词 表 大 概 只 包含 































































































完整 的 多 种 语言 的 停 用 词 表 ,参考 NLTK 语料库 。 
就 是 说 ， 为 了 保住 上 述 例子 中 的 关联 关系 需要 保留 更 长 的 n 元。 一 一 译 者 注 
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100 个 左右 高 频 的 非 重 要 词 。 但 是 ， 要 记录 大 规模 推 文 、 博 客 和 新 闻 中 出 现 的 95% 的 词 ， 需 要 大 
概 20 000 个 词 的 词汇 表 ， 而 这 只 考虑 了 1-gram 或 者 说 单个 词 的 词 条 。 要 容纳 某 个 大 规模 英文 语 
料 库 中 的 95% 的 2-gram， 需 要 设计 的 2-gram 词汇 表 通 常会 包括 超过 100 万 个 不 同 的 2-gram 词 条 。 

大 家 可 能 会 对 词汇 表 大 小 导致 所 需 的 任何 训练 集 的 大 小 表示 担心 , 训练 集 要 足够 大 以 避免 对 
任何 具体 词 或 者 词 的 组 合 造成 过 拟 合 。 大 家 也 知道 ， 训 练 集 的 大 小 会 决定 对 它 的 处 理 量 。 但 是 ， 
从 20 000 个 词 中 剔除 100 个 停 用 词 不 会 显著 加 快 上 述 处 理 过 程 ， 对 2-gram 词汇 表 而 言 ， 通 过 吻 
除 停 用 词 而 获得 的 好 处 无 足 轻 重 。 此 外 ， 如 果 不 对 使 用 停 用 词 的 2-gram 频率 进行 检查 就 武断 地 
剔除 这 些 停 用 词 的 话 ， 可 能 会 丢失 很 多 信息 。 例 如 ,我 们 可 能 会 失去 “The Shining” 这 个 独立 的 
标题 ， 而 将 有 关 这 部 充满 暴力 并 令 人 不 安 的 电影 的 文本 和 其 他 提 到 “Shining Light” 或 “shoe 
shining” 的 文档 一 视 同 仁 。 

因此 , 如 果 我 们 有 足够 的 内 存 和 处 理 带宽 来 运行 大 规模 词汇 表 下 NLP 流水 线 中 的 所 有 步 又 ， 
那么 可 能 不 必 为 在 这 里 或 那里 忽略 几 个 不 重要 的 词 而 忧虑 不 已 。 如 果 担 心 大 规模 词汇 表 与 小 规模 
训练 集 之 间 发 生 过 拟 合 的 话 , 那么 有 比 忽略 停 用 词 更 好 的 方法 来 选择 词汇 表 或 者 降 维 。 在 词汇 表 
中 保留 停 用 词 能 够 允许 文档 频率 过 滤器 ( 将 在 第 3 章 讨论 ) 更 精确 地 识别 或 者 忽略 那些 在 具体 领 
域 中 包含 最 少 信 息 内 容 的 词 或 n-gram。 

如 果 确 实 想 在 分 词 过 程 中 粗暴 地 去 掉 停 用 词 的 话 , 使 用 Python 中 的 列表 解析 式 ( list comprehension ) 
就 足够 了 。 下 面 给 出 了 一 些 停 用 词 以 及 在 词 条 列表 中 迭代 以 剔除 它们 的 代码 片段 : 




















ee 
> tokens = [ "the "NouSe rr “19 on yp “EEre" 
>>> tokens without stopwords = [x for x in tokens if x not in stop words] 


>>> print (tokens without stopwords) 
['house', "fire'] 


我 们 会 看 到 , 某 些 词 会 比 其 他 词 承载 更 多 的 意义 。 在 有 些 句 子 中 可 以 去 掉 超 过 一 半 的 词 但 是 
句子 的 意义 并 不 会 受到 显著 影响 。 即 使 没有 冠 词 、 介 词 甚至 动词 “to be” 的 各 种 形式 ， 读 者 往往 
也 能 够 抓 住 文章 的 要 点 。 设 想 一 个 人 正在 使 用 手语 或 者 需要 匆忙 给 自己 写 张 便条 , 那么 哪些 词 通 
常会 被 略 过 ? 这 就 是 选择 停 用 词 的 方法 。 

为 了 得 到 一 个 完整 的 “标准 ” 停 用 词 表 ， 可 以 参考 NLTK，NLTK 可 能 提供 了 使 用 最 普遍 的 
停 用 词 表 ， 具 体 可 以 参考 代码 清单 2-8。 


















































代码 清单 2-8 ”NLTK 停 用 词 表 





>>> import nltk 

>>> nltk.download('stopwords') 

>>> stop words = nltk.corpus.stopwords.words ('english') 
>>> len (stop_words) 


>>> stop words[:7] 
Li "me's? My "MySelf yy "Wes "Our ;. "OUES] 





Q 参考 标题 为 “Analysis of text data and Natural Language Processing” 的 网 页 。 
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>>> [sw for sw in stopwords if len(sw) == 1] 
ee bE: 人 人 ed: 让 1 ye Wy 





以 第 一 人 称 书写 的 文档 相当 枯燥 , 更 重要 的 是 , 其 内 容 信息 含量 很 低 。 NLTK 包 中 将 代词 (不 
止 是 第 一 人 称 ) 纳入 其 停 用 词 表 中 。 此 外 ， 上 述 单个 字母 的 停 用 词 看 上 去 更 古怪 , 但 是 如 果 多 次 
使 用 NLTK 分 词 顺和 Porter 词 干 还 原 工具 的 话 , 这 些 停 用 词 是 讲 得 通 的 。 当 使 用 NLTK 分 词 器 和 
词 干 还 原 工具 对 缩 略 语 进 行 分 割 和 词 干 还 原 时 ， 这 些 单字 母 的 词 条 就 会 经 常 出 现 。 


警告 sklearn 使 用 的 英文 停 用 词 表 和 NLTK 使 用 的 大 不 一 样 。 在 写作 本 书 之 时 ，sklearn 有 318 
个 停 用 词 。 而 NLTK 会 周期 性 地 更 新 其 语料库 ， 包 括 停 用 词 表 。 当 使 用 Python 3.6 的 nltk 的 3.2.5 
版 本 重新 运行 代码 清单 2-8 中 的 例子 时 ， 我 们 得 到 的 是 179 个 停 用 词 而 不 是 之 前 的 153 个 。 

这 也 是 不 过 滤 停 用 词 的 另 一 个 原因 。 如 果 过 滤 了 停 用 词 ， 其 他 人 可 能 无 法 重 现 你 的 结果 。 


根据 想 忽 略 的 自然 语言 信息 的 多 少 , 可 以 为 流水 线 使 用 多 个 停 用 词 表 的 并 集 或 交集 。 代 码 清 
单 2-9 中 给 出 了 sklearn (版 本 0.19.2) 和 nltk (版 本 3.2.5) 之 间 停 用 词 的 比较 情况 。 

















代码 清单 2-9 ”NLTK 停 用 词 表 





>>> from sklearn.feature extraction.text import\ 
ENGLISH STOP WORDS as sklearn stop words 
>>> len(sklearn stop words) 


















































318 
>>> len (stop_words) 
179 
>>> len(stop words.union(sklearn stop words)) NLTK 停 用 词 表 中 有 60 个 词 不 包含 在 更 大 
378 的 sklearn 停 用 词 表 中 
>>> len(stop words.intersection(sklearn stop words)) 
> Hn NLTK 和 sklearn 共同 的 停 用 词 不 到 总 数 的 
1/3 (在 378 个 停 用 词 中 有 119 个 相同 ) 

















2.2.5 词汇 表 归 一 化 


到 现在 为 止 , 我 们 已 经 看 到 了 词汇 表 大 小 对 NLP 流水 线性 能 的 重要 影响 。 另 一 种 减少 词汇 
表 大 小 的 方法 是 将 词汇 表 归 一 化 以 便 意义 相似 的 词 条 归并 成 单个 归 一 化 的 形式 。 这 样 做 一 方面 
可 以 减少 需要 在 词汇 表 中 保留 的 词 条 数 , 男 一 方面 也 会 提高 语料库 中 意义 相似 但 是 拼写 不 同 的 
词 条 或 n-gram 之 间 的 语义 关联 。 正 如 前 面 提 到 的 那样 ， 减 小 词汇 表 的 规模 可 以 降低 过 拟 合 的 
概率 。 


1. 大 小 写 转换 


当 两 个 单词 只 有 大 小 写 形式 不 同时 ， 大 小 写 转换 会 用 来 把 不 同 的 大 小 写 形式 进行 统一 处 理 。 
那么 , 为 什么 需要 使 用 大 小 写 转换 呢 ?” 因 为 当 单词 出 现在 句 首 或 者 为 了 表示 强调 均 采 用 大 写 形式 
来 表示 时 , 某 个 单词 的 大 小 写 变 得 不 太 统 一 。 将 这 种 不 统一 的 大 小 写 形式 统一 化 则 称 为 大 小 写 归 
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一 化 ( case normalization )， 或 者 采用 一 个 更 常用 的 称呼 ， 称 为 大 小 写 转换 (case folding )。 将 单 
词 或 字符 的 大 小 写 统一 是 一 种 减 小 词汇 表 规模 的 方法 ， 可 以 推广 到 NLP 的 流水 线 。 它 有 助 于 将 
意义 相同 ( 同样 的 拼写 方式 ) 的 单词 统一 化 为 单个 词 条 。 

但 是 ,单词 的 大 写 有 时 候 也 包含 了 一 些 特定 的 含义 ,例如 “doctor” 和 “Doctor” 往 往 具 有 不 
同 的 含义 。 大 写 单词 往往 也 表示 其 是 一 个 专 有 名 词 ， 即 某 个 人 名 、 地 名 或 者 事物 的 名 称 。 如 果 命 名 
实体 识别 对 NLP 流水 线 而 言 很 重要 的 话 ， 我 们 就 希望 能 够 识别 出 上 面 那 些 不 同 于 其 他 单词 的 专 有 
名 词 。 然而 ,如果 词 条 不 进行 大 小 写 归 一 化 处 理 , 那么 词汇 表 的 规模 就 大 约 是 原来 的 两 倍 , 需要 消 
耗 的 内 存 和 处 理 时 间 也 大 约 是 原来 的 两 倍 ,这 样 可 能 会 增加 需要 标注 的 训练 数据 的 数量 以 保证 机 器 
学 习 流 水 线 收敛 到 精确 的 通用 解 。 在 机 器 学 习 流 水 线 中 , 标注 的 用 于 训练 的 数据 集 必须 能 够 代表 模 
型 需要 处 理 的 所 有 可 能 的 特征 向 量 所 处 的 空间 , 包括 能 够 处 理 大 小 写 的 变化 情况 。 对 于 100 000 维 
的 词 袋 向 量 , 通常 必须 要 有 100 000 条 甚至 更 多 的 标注 数据 ,才能 训练 出 一 个 不 太 会 发 生 过 拟 合 的 
有 监督 机 器 学 习 流 水 线 。 在 某 些 情况 下 ， 将 词汇 表 规 模 减 小 一 半 比 丢弃 部 分 信息 更 值 当 。 

在 Python 中 ， 利 用 列表 解析 式 能 够 很 方便 地 对 词 条 进行 大 小 写 归 一 化 处 理 : 

>>> tokens = ['House', 'Visitor', 'Center'] 

>>> normalized tokens = [x.lower() for x in tokens] 


>>> print (normalized tokens) 
[Nouse yy "visitor lr Gentee 


如 果 确 信 要 对 整 篇 文档 进行 大 小 写 归 一 化 处 理 , 可 以 在 分 词 之 前 对 文本 字符 串 使 用 lower () 
函数 进行 处 理 。 但 是 如 果 这 样 的 话 ， 可 能 会 干扰 一 些 更 高 级 的 分 词 器 ， 这 些 分 词 器 可 以 将 驼峰 式 大 
小 写 (camel case ) 的 单词 进行 分 割 ， 如 “WordPerfect”“FedEx” 或 “stringVariableName” 等 。 
也 许 我 们 希望 WordPerfect 只 有 其 自己 唯一 的 表示 形式 ,或 者 也 许 希 望 回 忆 过 去 那个 更 完美 的 字 
处 理 时 代 。 到 底 何 时 以 及 如 何 应 用 大 小 写 转换 ， 取 决 于 我 们 自己 。 

通过 大 小 写 归 一 化 , 我 们 试图 在 语法 规则 和 词 条 在 句 中 的 位 置 影响 其 大 小 写 之 前 , 将 这 些 词 
条 还 原 成 其 归 一 化 形式 。 一 种 最 简单 也 最 常见 的 文本 字符 串 大 小 写 归 一 化 方法 是 ， 利 用 诸如 
Python 内 置 的 str .1lower () 函数 将 所 有 字符 都 转 成 小 写 形式 。 不 幸 的 是 ， 这 种 做 法 除了 会 将 
我 们 希望 的 那些 意义 不 大 的 句 首 大 写字 母 进行 归 一 化 ， 也 会 将 很 多 有 意义 的 大 小 写 形式 给 归 一 化 
掉 。 一 个 更 好 的 大 小 写 归 一 化 方法 是 只 将 句 首 大 写字 母 转 成 小 写 ， 其 他 单词 仍然 保持 原 有 形式 。 

只 将 句 首 字母 转 成 小 写 可 以 保留 句子 当中 专 有 名 词 的 含义 ， 如 Joe 和 Smith 在 句子 “Joe 
Smith” 中 的 情况 。 这 种 做 法 能 够 正确 地 将 本 该 在 一 起 的 词 分 到 一 组 ， 这 是 因为 它们 不 是 专 有 名 
字 而 只 在 句 首 时 才 首 字母 大 写 。 这 种 做 法 可 以 在 分 词 时 将 “Joe” 和 “coffee” (“joe”) “区 分 开 来 。 























































































































@ 详 见 维基 百科 上 标题 为 “Camel case case” 的 网 页 。 

@ 假设 这 里 是 Python 3 中 的 str .low()。 在 Python 2 中 , 字 节 (字符 串 ) 可 以 只 需要 通过 将 所 有 的 ASCII 
数字 空间 的 alpha 字符 进行 转换 即 可 ， 但 是 在 Python 3 中 ，str.1lower 对 字符 进行 合理 的 翻译 以 便 一 
方面 能 够 处 理 装 饰 后 的 英语 字符 ( 如 resumé 中 e 上 面 的 重音 符号 )， 另 一 方面 也 能 够 处 理 非 英语 的 一 些 
特殊 的 大 小 写 情况 。 


@) 3-gram“cup ofjoe” 是 “cup of coffee” 的 一 种 倡 语 。 
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这 种 做 法 也 能 防止 一 句 话 当 中 “铁匠 ”含义 的 “smith”( 如 人 句子 “A word smith had a cup of joe.”) 
和 专 有 名 词 “Smith” 混 在 一 起 。 即 使 采用 这 种 小 心 谨慎 的 大 小 写 处 理 方法 ， 即 只 将 句 首 的 单词 
转换 成 小 写 形式 ， 也 会 遇 到 某 些 情况 下 专 有 名 词 出 现在 句 首 而 导致 的 错误 。 采 用 上 述 做 法 ,Joe 
Smith, the word smith, with a cup of joe.” 和 “Smith the word with a cup of joe, Joe Smith.” 这 两 个 句 
子 会 产生 不 同 的 词 条 集合 。 此 外 ， 对 不 存在 大 小 写 概念 的 语言 来 说 ， 大 小 写 归 一 化 没有 任何 作用 。 

为 了 避免 上 述 例子 中 可 能 的 信息 损失 ， 很 多 NLP 流水 线 根本 不 进行 大 小 写 归 一 化 处 理 。 在 
很 多 应 用 中 , 将 词汇 表 规 模 减 小 一 半 带 来 的 效率 提升 ( 存储 和 处 理 ) 会 大 于 专 有 名 词 的 信息 损失 。 
但 是 ， 即 使 不 进行 大 小 写 归 一 化 处 理 ， 有 些 信息 也 会 损失 。 如 果 不 将 句 首 的 “The” 识 别 为 停 用 
词 , 对 有 些 应 用 来 说 可 能 会 带 来 问题 。 拥 有 真正 完善 手段 的 流水 线 会 在 选择 性 地 归 一 化 那些 出 现 
在 句 首 但 明显 不 是 专 有 名 词 的 词 之 前 , 先 检测 出 专 有 名 词 。 我 们 可 以 使 用 任何 对 应 用 有 意义 的 大 
小 写 处 理 方法 。 如 果 语 料 库 中 的 “Smithys” 和 “word smiths” 不 太 多 ,我 们 也 并 不 关心 它们 是 否 
要 归 一 化 成 一 个 词 条 , 那么 就 可 以 将 所 有 文本 都 转 成 小 写 形 式 。 最 好 的 方法 就 是 尝试 多 种 不 同 做 
法 ， 看 看 到 底 哪 一 种 做 法 在 NLP 项 目 中 获得 了 最 高 性 能 。 

为 了 让 模型 能 够 处 理 那 些 出 现 古 怪 大 小 写 形式 的 文本 , 大 小 写 归 一 化 可 以 减少 对 机 器 学 习 流 
水 线 的 过 拟 合 情 况 。 大 小 写 归 一 化 对 搜索 引擎 来 说 尤其 有 用 。 对 搜索 而 言 ， 归 一 化 能 够 增加 对 特 
定 查询 找到 的 匹配 数 ， 这 也 称 为 搜索 引擎 (或 其 他 任何 分 类 模型 ) 的 召回 率 。 

对 于 一 个 没有 进行 大 小 写 归 一 化 的 搜索 引擎 ， 如 果 搜 索 “Age” 会 得 到 和 搜索 “age” 不 一 样 
的 文档 集合 。“Age” 可 能 出 现在 诸如 “New Age” 或 “Age of Reason” 的 短语 中 。 比 较 而 言 ,“age” 
更 可 能 出 现在 像 前 面 有 关 “Thomas Jefferson” 的 句子 中 的 “at the age of ”这 样 的 短语 中 。 通 过 
将 搜索 索引 中 的 词汇 表 归 一 化 〈 同时 查询 也 需要 进行 同样 的 归 一 化 处 理 )， 无 论 输入 查询 的 大 小 
写 如 何 ， 都 可 以 保证 两 类 有 关 “age” 的 文档 均 被 返回 。 

但 是 ， 上 述 召 回 率 的 额外 升 高 会 造成 正确 率 降低 ， 此 时 对 于 返回 的 很 多 文档 ， 用户 并 不 感 兴 
趣 。 基 于 这 个 原因 ， 现 代 搜 索引 擎 允许 用 户 关闭 查询 的 大 小 写 归 一 化 选项 ,通常 的 做 法 是 将 需要 
精确 匹配 的 词 用 双 引 号 引起 来 。 如 果 要 构建 这 样 的 搜索 引 警 流水线， 以 便 处 理 上 述 两 种 查询 ， 就 
需要 为 文档 建立 两 个 索引 : 一 个 索引 将 n-gram 进行 大 小 写 归 一 化 处 理 ， 而 另 一 个 则 采用 原始 的 
大 小 写 形式 。 


2. 词 干 还原 


另 一 种 常用 的 词汇 表 归 一 化 技术 是 消除 词 的 复数 形式 所 有 格 的 词尾 甚至 不 同 的 动词 形式 等 
带 来 的 意义 上 的 微小 差别 。 这 种 识别 词 的 不 同形 式 背 后 的 公共 词 干 的 归 一 化 方法 称 为 词 干 还 原 
( stemming )。 例 如 , housing 和 houses 的 公共 词 干 是 house。 词 干 还 原 过 程 会 去 掉 词 的 后 级 ， 
从 而 试图 将 具有 相似 意义 的 词 归 并 到 其 公共 词 干 。 不 一 定 要 求 词 干 必须 是 一 个 拼写 正确 的 词 , 而 
只 需要 是 一 个 能 够 代表 词 的 多 种 可 能 拼写 形式 的 词 条 或 者 标签 ( label )。 
人 们 很 容易 知道 “house” 和 “houses” 分 别 是 同一 名 词 的 单数 和 复数 形式 。 但 是 ， 对 机 器 而 





















































































































































Q 参考 附录 DD 来 学 习 更 多 有 关 正 确 率 (presicion ) 和 召回 率 (tecall ) 的 内 容 。 
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言 , 需要 某 种 方式 来 提供 这 个 信息 。 词 干 还 原 的 主要 好 处 之 一 是 , 机 器 中 的 软件 或 者 语言 模型 所 
需 记 录 其 意义 的 词 的 个 数 得 以 压缩 。 它 在 限制 信息 或 意义 损失 的 同时 , 会 尽 可 能 减 小 词汇 表 的 规模 ， 
这 在 机 器 学 习 中 称 为 降 维 。 它 能 够 帮助 泛 化 语言 模型 ， 使 模型 能 够 在 属于 同一 词 干 的 词 上 表现 相同 。 
因此 ,只 要 我 们 的 应 用 中 不 需要 机 器 区 分 house 和 houses, 词 干 还 原 就 可 以 将 程序 或 数据 集 的 规模 减 
小 一 半 甚 至 更 多 ， 减 小 的 程度 依赖 所 选 词 干 还 原 工 具 的 激进 程度 。 

词 干 还 原 对 关键 词 搜索 或 信息 检索 十 分 重要 。 在 搜索 “developing houses in Portland” 时 ， 返 回 
的 网 页 或 者 文档 可 以 同时 包含 “house”“houses” 其 至 “housing”, 因为 这 些 词 都 会 还 原 成 词 干 “hous”。 
同样 ， 返 回 的 页 面 除了 可 以 包含 “developing”， 还 可 以 包含 “developer” 和 “development”， 因 为 它 
们 都 可 以 还 原 成 词 干 “develop”。 正 如 我 们 所 看 到 的 那样 ， 上 述 做 法 相当 于 拓宽 了 搜索 结果 ， 这 样 可 
以 确保 丢失 相关 文档 或 者 网 页 的 可 能 性 减 小 。 这 种 拓宽 搜索 结果 的 方法 会 极 大 地 提高 搜索 的 召回 率 
得 分 ， 召 回 率 是 度量 搜索 引擎 返回 所 有 相关 文档 的 程度 的 一 个 指标 。 

然而 , 词 干 还 原 可 能 会 大 幅度 降低 搜索 引擎 的 正确 率 得 分 , 这 是 因为 在 返回 相关 文档 的 同时 
可 能 返回 了 大 量 不 相关 文档 。 在 一 些 应 用 当中 ， 假 阳 率 (false positive， 返 回 的 结果 中 不 相关 的 
文档 比率 ) 会 是 一 个 问题 。 因 此 ， 大 部 分 搜索 引擎 可 以 通过 对 词 或 短语 加 双 引 号 的 方式 关闭 词 干 
还 原 甚 至 大 小 写 转换 这 些 选 项 。 加 双 引 号 意味 着 返回 页 面 必 须 包 含 短语 的 精确 拼写 形式 ， 例 如 ， 
输入 查询 “Portland Housing Development software”， 返 回 的 页 面 就 会 和 查询 “a Portland software 
developer’s house” 所 返回 的 页 面 不 属于 一 类 。 另外 , 有 时 候 需要 搜索 “Dr House’s calls” 而 非 “dr 
house call”， 昌 然后 者 可 能 是 采用 词 干 还 原 工具 处 理 前 者 后 得 到 的 有 效 查询 。 
下 面 给 出 一 个 使 用 纯 Python 实现 的 词 干 还 原 的 简单 示例 ， 该 示例 可 以 处 理 词尾 的 s: 


>>> def stem(phrase): 
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return ' '.join([re.findall('^(.*ss|.*?) (s)?$', 
5 word) [0] [0] .strip("'") for word in phrase.lower() .split()] 
>>> stem('houses') 


"house 
>>> Stem("Doctor House's calls"™") 
'doctor house call' 


上 面 的 词 干 还 原 函 数 使 用 一 个 短 的 正则 表达 式 来 遵守 如 下 的 一 些 简单 规则 : 

加 ”如果 词 结尾 不 止 一 个 s， 那 么 词 干 就 是 词 本 身 ， 后 缀 是 空 字符 串 ; 

加 如 果 词 结尾 只 有 一 个 s， 那 么 词 干 是 去 掉 s 后 的 词 ， 后 级 是 字符 s ; 

加 如 果 词 结尾 不 是 s， 那 么 词 干 就 是 词 本 身 ， 不 返回 任何 后 绥 。 

上 面 的 strip 方法 能 够 确保 一 些 词 的 所 有 格 和 复数 形式 能 够 被 词 干 还 原 处 理 。 

上 述 函 数 可 以 处 理 常 规 情况 ， 但 是 无 法 处 理 更 复杂 的 情况 。 例 如 ， 上 述 规则 遇 到 qishes 
或 者 heroes 就 会 失效 。 针 对 这 些 更 复杂 的 情况 ，NLTK 包 提 供 了 其 他 词 干 还 原 工 具 。 

上 述 函 数 同样 不 能 处 理 查 询 “Portland Housing” 中 的 “housing”。 

两 种 最 流行 的 词 干 还 原 工 具 分 别 是 Porter 和 Snowball。Porter 词 干 还 原 工具 因 计算 机 科学 家 




























































































@ 如 果 忘 记 了 如 何 求 召 回 率 ， 可 以 参考 附录 D 或 者 访问 有 关 召 回 率 的 维基 百科 网 页 。 
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Martin Porter 而 得 名 。Porter 本 人 也 主导 了 对 Porter 词 干 还 原 工具 进行 改进 
程 。 由 于 词 干 还 原 对 信息 检索 ( 关键 词 检索 ) 具有 重 


分 时 间 里 帮 致 力 于 记录 和 提 高 词 干 还 原 工具 的 效果 。 这些 词 干 还 原 工具 使 月 






































而 得 到 Snowbal 的 过 


要 价值 ，Porter es 职业 生涯 的 大 部 





日 了 比 单个 正则 表达 式 





更 复杂 的 规则 ， 这 样 就 能 够 处 理 更 复杂 的 英语 拼写 和 词尾 情况 。 


>>> from nltk.stem.porter import PorterStemmer 
>>> stemmer PorterStemmer () 
>>> ' '.join([stemmer.stem(w) 

"dish washer's washed dishes". 
'dish washer wash dish' 


ED 测定 
split()]) 























需要 注意 的 是 ， 像 上 面 的 正则 表达 式 词 干 还 原 工具 一 样 














，Porter 保留 了 词尾 的 撤 号 ('), 这 





样 就 能 把 所 有 格 形式 和 非 所 有 格 形式 的 词 区 




































































分 开 来 。 所 有 格 名 词 往往 都 是 专 有 和 名词 ,因此 这 个 特 



























































性 对 于 那些 要 将 人 名 和 其 他 名 词 区 分 开 来 的 应 用 来 说 十 分 重要 。 
关于 Porter 词 干 还 原 工具 的 更 多 信息 
Julia Menchavez 将 Porter 的 原始 版 本 转换 成 纯 Python 版 本 并 且 共 享 了 出 来 。 如 果 读 者 有 兴趣 开发 自 
的 词 干 还 原 工具 ， 可 以 考虑 这 300 行 转 换代 码 ， 以 及 Porter 放 入 其 中 的 经 受 了 长 期 考验 的 精致 规则 。 
Porter 词 干 还 原 算法 有 8 步 : 1a、1b、1c、2、3、4、5a 和 5b。 其 中 1a 有 点 儿 像 处 理 词尾 s 的 正 
则 表达 式 "; 





def steplal(self, word): 
if word.endswith('sses'): 





word = self.replace (word, 'sses', 'ss') pe 
elif word.endswith('ies'): 这 与 strreplace0 完 全 不 一 
Woel = BEL edlacde vo, Ve VV 样 ，Julia 的 selfreplaceO 只 
elif word.endswith('ss'): 修改 词尾 部 分 
word = self.replace (word, 'ss', 'ss') 
elif word.endswith('s'): 
word = self.replace (word, 's', '') 


return word 

























































































剩 下 的 7 步 要 复杂 得 多 ， 因 为 它们 必须 处 理 下 面 的 复杂 的 英语 拼写 规则 : 
国 。 Step 13a 一 词尾 为 “S” 和 “es” 

国 Step 1b 一 词尾 为 “ed” “ing” . Sl 

加 ”Step 1c 一 词尾 为 “y”; 

加 ”Step 2 一 名 词性 词尾 ， 本 ationa “tional™ “ence 4 “able”: 
回 ”Step 3 一 形容 词性 词尾 ， 如 “icate”“ful” 和 “alize”; 

国 ”Step 4 一 形容 词性 词尾 ， 如 “ive”"ible”“ent” 和 “ism”， 

加 ”Step 5a 一 难处 理 的 词尾 “e”， 仍 然 持续 开发 中 ; 

加 ”Step 5b 一 词尾 的 双 辅 音 ， 词 干 会 以 单个 “|” 结 尾 。 























这 是 Julia Menchavez 实现 的 porter-stemmer 的 一 个 简化 版 本 。 


[ab] 





人 参考 M. 下 . Porter 的 文章 “An algorithm for suffix stripping”( 1993 )。 
@) 详 见 标题 为 “Snowball: A language for stemming algorithms” 的 网 页 。 
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3. 词 形 归并 


如 果 知 道 词 义 之 间 可 以 互相 关联 ， 那 么 可 能 就 能 够 将 一 些 词 关联 起 来 ， 即 使 它们 的 拼写 完全 不 
一 样 。 这 种 更 粗放 的 将 词 归 一 化 成 语义 词根 即 词 元 (lemma ) 的 方式 称 为 词 形 归 并 ( lemmatization )。 

在 第 12 章 中 ,我 们 会 看 到 如 何 通过 词 形 归并 来 降低 回答 聊天 机 器 人 语句 时 所 需 逻 辑 的 复杂 性 。 
对 于 任何 一 个 NLP 流水 线 ， 如 果 想 要 对 相同 语义 词根 的 不 同 拼写 形式 都 做 出 统一 回复 的 话 ， 那 么 
词 形 归并 工具 就 很 有 用 , 它 会 减少 必须 要 回复 的 词 的 数目 , 即 语言 模型 的 维度 。 利用 词 形 归并 工具 ， 
可 以 让 模型 更 一 般 化 , 当然 也 可 能 带 来 模型 精确 率 的 降低 , 因为 它 会 对 同一 词根 的 不 同 拼 写 形 式 一 
视 同仁 。 例 如 ， 即 使 它们 的 意义 不 同 ， 在 NLP 流水 线 中 使 用 词 形 归并 的 情况 下 , “chat”“chatter” 
“chatty”“chatting” 其 至 “chatbot” 可 能 也 会 被 同等 对 待 。 与 此 类 似 的 是 ， 尽 管 “bank” “banked” 
和 “banking” 分 别 和 河岸 、 汽 车 及 金融 有 关 ， 但 是 如 果 使 用 了 词 干 还 原 工 具 ， 它 们 会 被 同等 对 待 。 

在 浏览 这 一 节 时 , 大 家 可 以 想象 一 下 可 能 会 有 这 样 的 词 ， 经 过 词 形 归并 处 理 之 后 , 可 能 会 彻 
底 改 变 该 词 的 意思 ,甚至 可 能 得 到 意义 完全 相反 的 词 ， 从 而 导致 与 期 望 回 复 相 反 的 结果 。 这 种 情 
形 称 为 “刻意 欺骗 ”( spoofing )， 即 通过 精心 构造 难以 处 理 的 输入 ， 有 意 使 机 器 学 习 流 水 线 产生 
错误 的 响应 。 

由 于 考虑 了 词义 , 相对 于 词 干 还 原 和 大 小 写 归 一 化 , 词 形 归并 是 一 种 潜在 的 更 具 精 确 性 的 词 
的 归 一 化 方法 。 通过 使 用 同义词 表 和 词尾 相关 的 知识 库 , 词 形 归 并 工具 可 以 确保 只 有 那些 具有 相 
似 意 义 的 词 才 会 被 归并 成 同一 词 条 。 

有 些 词 形 归并 工具 除 拼写 之 外 还 使 用 词 的 词性 (part of speech，POS ) 标签 来 提高 精确 率 。 
词 的 POS 标签 代表 了 该 词 在 短语 或 句子 中 的 语法 角色 。 例如 ,名 词 一 般 是 代表 人 物 、 地 点 、 事 
物 的 词 。 形 容 词 常常 代表 修饰 或 描述 名 词 的 词 。 动 词 是 代表 动作 的 词 。 只 孤立 地 考虑 词 本 身 是 
无 法 判断 词性 的 ， 判 断 词性 要 考虑 该 词 的 上 下 文 。 因 此 ,一 些 高 级 的 词 形 归并 工具 无 法 在 孤立 
的 词 上 运行 。 

大 家 能 否 设 想 如 何 使 用 词性 信息 从 而 比 使 用 词 干 还 原 更 好 地 识别 词 的 “词根 ”? 考虑 词 better， 
词 干 还 原 工 具 可 能 会 去 掉 better 词尾 的 er， 从 而 得 到 bett 或 bet。 但是， 这样 做 会 将 better 和 betting、 
bets 和 Bet's 混在 一 起 ， 而 一 些 更 相近 的 词 如 betterment、best 甚至 good 和 goods 却 被 排除 在 外 。 

因此 , 在 很 多 应 用 中 词 形 归并 比 词 干 还 原 更 有 效 。 词 干 还 原 工具 实际 上 仅仅 用 于 大 规模 信息 
检索 应 用 ( 关键 词 搜索 ) 中 。 如 果 我 们 真 的 希望 在 信息 检索 流水 线 中 通过 词 干 还 原 工 具 进行 降 维 
和 提高 召回 率 , 那么 可 能 需要 在 使 用 词 干 还 原 工具 之 前 先 使 用 词 形 归并 工具 。 由 于 词 元 本 身 是 一 
个 有 效 的 英文 词 , 词 干 还 原 工 具 作 用 于 词 形 归并 的 输出 会 很 奏效 。 这 种 技巧 会 比 单独 使 用 词 干 还 
原 工具 能 更 好 地 降 维 和 提高 信息 检索 的 召回 率 。 

在 Python 中 如 何 识别 词 元 ?NLTK 包 提 供 了 相关 的 函数 。 需 要 注意 的 是 , 如 果 需 要 得 到 更 精 
确 的 词 元 ， 需 要 告诉 WordNetLemmatizer 你 感 兴趣 的 词性 是 什么 。 






































































































































































































































Q@ 感谢 Kyle Gorman 指出 了 这 一 点 。 
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>>> nltk.download('wordnet') 
>>> from nltk.stem import WordNetLemmatizer 




















>>> lemmatizer = WordNetLemmatizer () 默认 词性 是 “n” 
>>> lemmatizer.lemmatize ("better") 表示 名 词 
'better' 

>>> lemmatizer.lemmatize ("better", pos="a") Se 
1good! a” 表 示 形 容 词 
>>> lemmatizer.lemmatize ("good", pos="a") 

'good'"' 

>>> lemmatizer.lemmatize ("goods", pos="a") 

"goods " 

>>> lemmatizer.lemmatize ("goods", pos="n") 

"good ' 

>>> lemmatizer.lemmatize ("goodness", pos="n") 

'goodness'' 

>>> lemmatizer.lemmatize ("best", pos="a") 

'best' 


读者 可 能 会 觉得 奇怪 ,为 什么 上 述 对 better 的 第 一 次 词 形 归并 处 理 对 它 并 没有 根本 改变 ,其 
原因 在 于 ， 词 的 词性 可 能 会 对 其 意义 有 巨大 影响 。 如 果 没 有 给 定 某 个 词 的 词性 ，NLITK 词 形 归并 
工具 会 默认 其 为 名 词 。 一 旦 指定 了 better 的 正确 词性 “a”， 即 形容 词 ， 词 形 归 并 工具 就 会 返回 正 
确 的 词 元 。 遗 憾 的 是 ，NLTK 词 形 归 并 工具 仅 限 于 普林斯顿 WordNet 词义 图 中 的 关联 。 因 此 ，best 
不 会 和 better 产生 同样 的 词根 。WordNet 词义 图 中 也 忽略 了 goodness 和 good 之 间 的 关联 。 而 另 一 
方面 ，Porter 词 干 还 原 工 具 却 通 过 去 掉 所 有 词尾 的 ness 找到 上 述 两 个 词 之 间 的 关联 : 


>>> stemmer.stem('goodness') 
"good ' 





























4. 使 用 场景 


什么 时 候 用 词 形 归 并 ?什么 时 候 用 词 干 还 原 ? 词 干 还 原 工具 通常 计算 速度 比较 快 , 所 需要 的 代码 
和 数据 集 也 更 简单 。 但 是 ， 相 对 于 词 形 归并 ， 词 干 还 原 会 犯 更 多 的 错误 ,会 对 更 多 的 词 进行 处 理 ， 从 
而 对 文本 的 信息 内 容 及 意义 的 缩减 量 也 更 大 。 无 论 是 词 干 还 原 还 是 词 形 归并 , 都 会 减 小 词汇 表 的 规模 ， 
同时 增加 文本 的 歧义 性 。 但 是 词 形 归 并 工具 基于 词 在 文本 中 的 用 法 和 目标 词义 ， 能 够 尽 可 能 地 保留 文 
本 的 信息 内 容 。 因 此 ， 有 些 NLP 包 如 spaCy 不 提供 词 干 还 原 工具 ， 而 只 提供 词 形 归并 工具 。 

如 果 应 用 中 包含 搜索 过 程 , 那么 词 干 还 原 和 词 形 归并 能 够 通过 将 查询 词 关联 到 更 多 文档 而 提 
高 搜索 的 召回 率 。 但 是 ， 词 干 还 原 、 词 形 归并 其 至 大 小 写 转换 将 显著 降低 搜索 结果 的 正确 率 
( precision ) 和 精确 率 ( accuracy )。 上 述 词 汇 表 压缩 方法 会 导致 信息 检索 系统 ( 搜索 引擎 ) 返回 
更 多 与 词 的 原本 意义 不 相关 的 文档 。 由 于 搜索 结果 可 以 按照 相关 度 排 序 , 搜索 引擎 和 文档 索引 常 
常 使 用 词 干 还 原 或 词 形 归 并 来 提高 所 需 文档 在 搜索 结果 中 出 现 的 可 能 性 。 但 是 ,最 终 搜 索引 擎 会 
将 词 干 还 原 前 和 还 原 后 的 检索 结果 混在 一 起 ， 通 过 排序 展示 给 用 户 。 











































































































@ 额外 的 元 数据 可 以 用 于 调整 搜索 结果 的 排序 。DuckDuckGo 和 其 他 流行 的 Web 搜索 引擎 整合 了 超过 400 
个 独立 的 算法 ( 包括 用 户 贡献 的 算法 ) 来 对 检索 结果 进行 排序 。 
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而 对 基于 搜索 的 聊天 机 器 人 来 说 ， 精 确 率 更 为 重要 。 因 此 ， 聊 天 机 器 人 会 先 基 于 未 进行 词 干 
还 原 、 未 进行 归 一 化 的 词 来 搜索 最 相近 的 匹配 ,只 有 失败 了 才 转 向 词 干 还 原 或 者 过 滤 掉 的 词 条 匹 
配 来 寻找 可 能 的 结果 。 而 词 条 归 一 化 前 的 匹配 结果 的 级 别 高 于 归 一 化 后 的 匹配 结 


重要 说 明 除非 文本 (这些 文 本 包含 一 些 大 家 感 兴趣 的 词 的 用 法 或 者 大 写 形式 ) 数量 有 限 ， 否 则 就 
避免 使 用 词 干 还 原 和 词 形 归并 。 这 一 点 是 我 们 的 底线 。 随 着 NLP 数据 集 的 井喷 式 增长 ， 上 述 情况 
对 英文 文档 来 说 已 经 很 少见 了 ， 除 非 文档 使 用 了 大 量 的 术语 ， 或 者 来 自 科 学 、 技 术 或 文学 的 一 个 极 
小 的 子 领域 。 尽 管 如 此 ， 对 于 除 英 语 之 外 的 语言 ， 仍 然 存在 词 形 归并 的 使 用 场景 。 斯 坦 福 大 学 的 信 
息 检索 课程 完全 忽略 了 词 干 还 原 和 词 形 归并 ,因为 它们 带 来 的 召回 率 提高 微不足道 而 正确 率 却 降低 
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明显 。 

















2.3 情感 


无 论 NLP 流水 线 中 使 用 的 是 单个 词 、n-gram、 词 干 还 是 词 元 作为 词 条 ， 每 个 词 条 都 包含 了 
一 些 信息 。 这 些 信息 中 的 一 个 重要 部 分 是 词 的 情感 ， 即 一 个 词 所 唤起 的 总 体感 觉 或 感情 。 这 种 度 
量 短语 或 者 文本 块 的 情感 的 任务 称 为 情感 分 析 ( sentiment analysis )， 是 NLP 中 的 一 个 常见 应 用 。 
在 很 多 公司 中 ，NLP 工程 师 要 做 的 最 主要 的 工作 就 是 情感 分 析 。 

公司 很 想 知 道 用 户 对 其 产品 的 看 法 。 因 此 ,他 们 和 常常 提供 了 用 户 反馈 的 通道 。 在 亚马逊 或 者 
Rotten Tomatoes 上 对 用 户 购买 的 商品 打上 星 级 ， 是 获得 用 户 对 商品 的 可 量化 的 看 法 的 一 种 办 法 。 
但 是 更 自然 的 一 种 方式 是 让 用 户 利 用 自然 语言 对 商品 进行 评价 。 给 用 户 一 个 空白 文本 框 , 用 户 可 
以 在 其 中 填 上 更 加 详细 的 商品 评价 内 容 。 

过 去 我 们 必须 对 这 些 评论 一 一 阅读 。 只 有 人 类 才能 够 理解 自然 语言 文本 中 诸如 情绪 、 情 感 之 
类 的 东西 , 对 不 对 ?然而 ,如 果 我 们 必须 要 阅读 几 千 条 评论 , 就 会 发 现 阅 读者 的 工作 多 么 枯燥 乏味 
并 日 会 屡屡 犯错 。 人 类 特别 不 善于 阅读 用 户 的 反馈 ,特别 是 那些 批评 性 的 反馈 或 负面 的 反馈 。 而 
顾客 通常 的 反馈 沟通 方式 并 不 是 特别 好 ， 难 以 通过 人 类 自然 的 触发 锅 和 过 滤器 。 

但 是 机 器 既 不 会 有 人 类 的 那 种 倾向 性 ， 又 没有 人 类 的 情感 触发 器 。 而 且 ， 并 不 仅仅 是 人 类 才 
可 以 处 理 自然 语言 文本 和 从 中 提取 信息 甚至 意义 ，NLP 流水 线 也 能 够 快速 客观 地 处 理 大 量 用 户 反 
馈 , 而 不 会 出 现 什么 倾向 性 。 同时, NLP 流水 线 能 够 输出 文本 的 正 向 性 或 者 负 向 性 以 及 任何 其 他 
的 情感 质量 的 数值 等 级 。 

另 一 个 常见 的 情感 分 析 应 用 是 垃圾 邮件 或 钓鱼 消息 的 过 滤 。 我 们 也 希望 自己 的 聊天 机 器 
人 能 够 判断 聊天 信息 中 的 情感 以 便 能 够 合理 地 进行 回复 。 其 至 更 重要 的 一 点 是 ， 我 们 希望 聊 
天 机 器 人 在 输出 语句 之 前 能 够 知道 该 语句 的 情感 倾向 ， 从 而 引导 机 器 人 输出 更 加 亲 和 和 友好 
的 语句 。 实 现 上 面 这 一 点 的 一 种 最 简单 方式 就 是 按照 妈妈 们 说 过 的 一 句 话 去 做 : 如 果 不 能 说 
出 得 体 的 话 ， 就 什么 都 别 说 。 因 此 ， 我 们 需要 机 器 人 能 够 度量 要 说 的 任何 话 的 得 体 程度 从 而 



























































































































































Q@ 详 见 标题 为 “Stemming and lemmatization” 的 网 页 。 
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决定 是 否 需 要 回复 。 

那么 , 要 度量 一 段 文本 的 情感 产生 所 谓 的 倾向 性 数值 , 需要 构造 什么 类 型 的 流水 线 呢 ?假如 
需要 度量 文本 的 喜好 度 ， 即 某 个 人 对 其 所 评论 的 产品 或 服务 的 喜欢 程度 ,应 该 如 何 ” 再 如 , 我们 
希望 NLP 流水 线 和 情感 分 析 算 法 输出 单个 从 -1 到 +1 之 间 的 浮 点 值 。 对 于 类 似 于 “Absolutely 
perfect! Love itl :-) :-) :-).” 这 样 的 正 向 情感 文本 ， 算 法 会 输出 +1。 而 对 于 类 似 于 “Horrible! 
Completely useless. :(.” 这 样 的 负 向 情感 文本 , 算法 会 输出 -1。 对 于 类 似 于 “It was OK. Some good 
and some bad things.” 这 样 的 评论 ， 算 法 会 输出 一 个 接近 于 0 的 值 ， 如 0.1。 

有 两 种 情感 分 析 的 方法 ， 分 别 是 : 

国 基于 规则 的 算法 ， 规 则 由 人 来 撰写 ; 

图 基于 机 器 学 习 的 模型 ， 模 型 是 机 顺从 数据 中 学 习 而 得 到 。 

第 一 种 情感 分 析 的 方法 使 用 用 户 设计 的 规则 ( 有 时 称 为 启发 式 规则 ) 来 度量 文本 的 情感 。 一 
个 常用 的 基于 规则 的 方法 是 在 文本 中 寻找 关键 词 , 并 将 每 个 关键 词 映射 到 某 部 字典 或 者 映射 上 的 
数值 得 分 或 权重 ,例如 这 部 字典 可 以 是 Python 的 dict。 到 现在 为 止 , 我 们 已 经 知道 了 如 何 进行 
分 词 处 理 ， 我 们 在 字典 中 可 以 使 用 分 词 后 得 到 的 词 干 、 词 元 或 者 n-gram 词 条 ， 而 不 只 是 词 。 算 
法 中 的 规则 将 迭 加 文档 中 每 个 关键 词 在 字典 中 的 情感 得 分 ,显然 ,在 文本 上 运行 我 们 的 算法 之 前 ， 
我 们 必须 要 手工 构建 一 部 关键 词 及 每 个 关键 词 的 情感 得 分 的 字典 。 后 面 我 们 会 利用 代码 片段 展示 
如 何 使 用 sklearn 中 的 VADER 算法 来 实现 这 一 点 。 

第 二 种 基于 机 器 学 习 的 方法 利用 一 系列 标注 语句 或 者 文档 来 训练 机 器 学 习 模 型 以 产生 规则 。 
机 器 学 习 的 情感 模型 在 经 过 训练 以 后 能 够 处 理 输 入 文本 并 输出 该 文本 的 一 个 情感 数值 得 分 , 该 得 
分 就 像 正 向 倾向 性 、 垃 圾 程度 和 钓鱼 程度 一 样 。 对 于 机 器 学 习 方法 ， 需 要 大 量 标注 好 “正确 ” 情 
感 得 分 的 文本 数据 。 推 文 数据 往往 被 用 于 这 类 方法 ， 因 为 推 文中 的 哈 希 标签 ( 如 #awesome、 
#happy 或 #sarcasm ) 往往 可 用 于 构建 “ 自 标注 ”( self-labeled ) 的 数据 集 。 大 家 的 公司 可 能 
一 些 经 过 五 星 评级 的 产品 评论 ， 可 以 利用 这 些 五 星 评级 作为 文本 正 向 倾向 性 的 数值 得 分 进行 训 
练 。 后 面 我 们 在 介绍 VADER 之 后 ， 很 快 就 给 大 家 展示 如 何 处 理 这 样 的 数据 集 ， 并 通过 训练 一 个 
基于 词 条 的 朴素 贝 叶 斯 机 器 学 习 算 法 ,来 度量 评论 的 正 向 情感 倾向 程度 。 
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2.3.1 VADER: 一 个 基于 规则 的 情感 分 析 器 


佐治 亚 理工 学 院 (GA Tech ) 的 Hutto 和 Gilbert 提出 了 最 早 成 功 的 基于 规则 的 情感 分 析 算法 
之 一 ， 他 们 称 之 为 VADER 算法 ， 是 Valence Aware Dictionary for sEntiment Reasoning 的 简称 。 
很 多 NLP 包 实 现 的 是 该 算法 的 某 种 形式 。NLTK 包 中 的 nltk.sentiment .vader 实现 了 VADER 
算法 。Hutto 自己 维护 着 Python 包 vaderSentiment。 下 面 会 给 出 使 用 vaderSentiment 
的 代码 片段 。 























QD 参见 Hutto 和 Gilbert 的 文章 “VADER: A Parsimonious Rule-based Model for Sentiment Analysis of Social 
Media Text” 。 
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要 运行 下 面 的 例子 需要 pip install vaderSentiment ,而 在 nlpia 包 中 并 没有 包含 


vaderSentiment: 


SentimentIntensityAnalyzer.lexicon 包含 了 
词 条 及 其 对 应 的 我 们 提 到 的 得 分 


>>> from vaderSentiment.vaderSentiment import SentimentIintensityAnalyzer 
>>> sa = SentimentIintensityAnalyzer () 





















































>>> sa.lexicon < 

{ 

1 (Pp < a a et ee 
ne 这 里 的 分 词 器 最 擅长 处 理 标点 符号 和 表情 各 
到 号 , 这样 VADER 才能 更 好 地 工作 。 毕 竞 , 设 
PLS :0.3 计 表 情 符号 就 是 为 了 表达 大 量 情感 

PLZ O33. 

2 如 果 在 流水 线 中 词 干 还原 工 具 ( 或 词 形 归 并 工具 ), 需要 将 该 词 干 还 原 工具 
rgreat': 3.1, 也 用 于 VADER 词 库 ， 使 单个 词 干 或 词 元 中 的 所 有 词 的 得 分 组 合 起 来 




















>>> [(tok, score) for tok, score in sa.lexicon.items() 
Es 在 VADER 定义 的 7500 个 词 条 中 , 只 有 3 个 包含 








[ 

















m 了 1 ", 1.6), > 
ee es ee 0) 空格 ,其 中 的 两 个 实际 上 是 n-gram， 男 一 个 是 表 
(dD 二。 8) “ 达 “kiss” 的 表情 符号 


('screwed up', -1.5)] 
>>> sa.polarity scores (text=\ 
"Python is very readable and it's great for NLP.") 
{'compound': 0.6249, 'neg': 0.0, 'neu': 0.661, 


POG oo VADER 算 法 用 3 个 不 同 的 分 
>>> sa.polarity scores (text=\ 





























类 正 负 是 中 立 ) 3 

"Python is not a bad choice for most applications.") et ne 
{'compound': 0.431, 'neg': 0.0, 'neu': 0.711, 表达 情感 极 性 的 强度 ， 然 后 
'pos': 0.289} < 一 将 它们 组 合 在 一 起 得 到 一 个 








注意 ，VADER 对 于 否定 处 理 得 非常 好 ， 相 比 于 not bad， 复合 的 情感 倾向 性 得 分 
great 正 向 情感 程度 只 是 略微 高 一 点 。VADER 内 置 的 分 
词 咒 忽略 所 有 不 在 其 词 库 中 的 词 ， 也 完全 不 考虑 n-gram 



































下 面 看 看 上 述 基 于 规则 的 方法 在 我 们 前 面 提 到 的 语句 上 的 应 用 结果 如 何 : 


>>> corpus = ["Absolutely perfect! Love it! :-] :-] :-]", 
"Horrible! Completely useless. :("， 
a "It was OK. Some good and some bad things."] 
>>> for: do Tn COrpUus: 
scores = sa.polarity scores (doc) 





print('{:+}: {}'.format (scores['compound'], doc)) 
+0.9428: Absolutely perfect! Love it! :-) :-) :-) 
-0.8768: Horrible! Completely useless. :( 
+0.3254: It was OK. Some good and some bad things. 


这 看 上 去 和 我 们 想 要 的 差不多 。VADER 的 唯一 不 足 在 于 ， 它 只 关注 其 词 库 中 的 7500 个 词 条 ， 而 
非 文档 中 的 所 有 词 。 如 果 想 把 所 有 词 及 其 情感 得 分 加 入 词 库 该 怎么 做 ?如 果 不 想 对 词 库 中 数 千 词 中 的 














tr 














@ 可 以 从 GitHub 上 获得 源码 和 更 详细 的 安装 指令 。 
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每 个 词 进行 编码 该 如 何 处 理 ? 或 者 将 大 量 定 制 的 词 加 入 词 库 SentimentIntensityAnalyzer. 
lexicon 中 又 该 如 何 处 理 ? 如 果 不 理解 语言 的 话 ， 基 于 规则 的 方法 几乎 不 可 能 有 用 ， 因 为 不 知 
道 要 在 字典 〈 词 库 ) 中 放 入 什么 分 数 ! 

而 这 就 是 基于 机 器 学 习 的 情感 分 析 器 要 做 的 事情 。 




















2.3.2 ”朴素 贝 叶 斯 


朴素 贝 叶 斯 模型 试图 从 一 系列 文档 集合 中 寻找 对 目标 (输出 ) 变量 有 预测 作用 的 关键 词 。 当 
目标 变量 是 要 预测 的 情感 时 , 模型 将 寻找 那些 能 预测 该 情感 的 词 。. 朴 素 贝 叶 斯 模型 的 一 个 好 处 是 ， 
其 内 部 的 系数 会 将 词 或 词 条 映射 为 类 似 于 VADER 中 的 情感 得 分 。 只 有 这 时 ,我 们 才 不 必 受 限于 
让 人 来 决定 这 些 分 数 应 该 是 多 少 ， 机 器 将 寻找 任何 其 认为 的 “最 佳 ”得 分 。 

对 于 任 一 机 顺 学 习 算法 , 首先 必须 要 有 一 个 数据 集 ， 即 需要 一 些 已 经 标注 好 正 向 情感 的 文本 
文档 。 在 和 同伴 构建 VADER 时 ，Hutto 整理 了 4 个 不 同 的 情感 数据 集 。 我 们 可 以 从 nlpia 包 中 
加 载 这 些 数据 集 。 

>>> from nlpia.data.loaders import get data 

>>> movies = get datal('hutto movies') 


>>> movies.head() .round (2) 
sentiment text 










































































1 

1 2.27 The Rock is destined to be the 21st Century... 
2 3.53 The gorgeously elaborate continuation of ''.. 
3 -0.60 Effective but too tepid ... 
4 1.47 If you sometimes like to go to the movies t... 
5 1.73 Emerges as something rare, an issue movie t... 
> 





>> movies.describe() .round (2) 
sentiment 
count 10605.00 
mean 0.00 看 起 来 电影 的 评分 区 间 在 -4 到 +4 之 间 
min 33:88 
max 3.94 





下 面 使 用 分 词 器 对 所 有 电影 评论 文本 进行 切 分 , 从 而 得 到 每 篇 评论 文本 的 词 袋 , 然后 像 本 章 
前 面 提 到 的 例子 那样 将 它们 放 入 Pandas DataFrame 中 。 









































这 行 用 于 帮助 在 控制 台 更 美观 相对 于 TreebankWordTokenizer 分 词 Python 内 置 的 Counter 的 输 
地 显示 较 宽 的 DataFrame 器 或 者 本 章 其 他 的 分 词 咒 ，NLTK 的 入 是 一 系列 对 象 , 然后 对 这 
casual tokenize 可 以 更 好 地 处 理 表情 符 些 对 象 进行 计数 , 并 返回 一 
已 . 洁 , 衣 * 抽 人 本 二 局. 上 J 1 2 
aa a 不 寻常 的 标点 符号 以 及 行业 术语 部 字典 ， 其 中 键 是 对 象 本 身 
pd.set option('display.width', 75) (这 里 是 词 条 ), 值 是 这 些 对 
象 计数 后 得 到 的 整数 值 





from nltk.tokenize import casual tokenize 
bags_ of words = [] 

from collections import Counter 4 
for text in movies.text: 

















Q) 如 果 还 没有 安装 nlpia 的 话 ， 请 检查 本 书 的 GitHub 上 给 出 的 安装 指令 。 
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bags_of words.append (Counter (casual tokenize (text) ) ) 

























































































>>> df bows = pd.DataFrame.from records (bags of words) UE 
>>> df bows = df bows.fillna(0) .astype (int) < 
——>>>> df_bows.shape 
(L10605, 20756) 
>>> df_ bows.head () 
! ™ # $ %$ & 1' Zone zoning  ZZZZZZZZZ 到 élan 一 / 
0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 
1 0 0 0 0 0 0 4 0 0 0 0 0 0 20 
2.° “0 50:. 20,° 0 20 PO: 0 0 0 0 0 0 0 0 
3.7 0 0 © "0 0 0 0 a 0 0 0 0 (G2 6 
4 -OiO0N “iO IO 0 0 “0 Da 0 0 0 0 QO “0° 0 
>>> df bows.head() [list (bags of words[0] .keys())] 
The Rock is destined to be ... Van Damme or Steven Segal 
0 1 二 1 2 下 1 1 4 六 "于 
于 2 0 1 0 0 0 0 0 0 0 0 4 
2 0 0 0 0 0 0 0 0 0 0 0 0 
3 0 0 1 0 4 0 0 0 0 0 0 1 
4 0 0 0 0 0 0 0 0 0 0 (Ot 
Numpy 和 Pandas 只 能 用 浮 点 对 象 来 表示 NaN, 因此 一 
词 袋 表 格 可 能 会 快速 增长 到 很 大 的 规模 ， 日 将 所 有 NaN 填充 为 0， 可 以 将 DataFrame 转换 为 整 
特别 是 在 没有 使 用 前 面 提 到 的 大 小 写 归 一 数 ， 这 样 在 内 存 存储 和 显示 上 可 以 紧凑 得 多 
化 、 停 用 词 过 滤 、 词 干 还 原 和 词 形 归并 过 
程 时 更 是 如 此 。 在 这 里 可 以 考虑 搬入 上 述 
降 维 工具 看 看 对 流水 线 的 影响 如 何 DataFrame 构造 器 from _Tecords() 的 输入 是 一 个 字典 的 序列 ， 
它 为 所 有 键 构建 列 ， 值 被 加 入 合适 的 列 对 应 的 表格 中 ， 而 
缺失 值 用 NaN 进行 填充 


























现在 我 们 拥有 了 朴素 贝 叶 斯 模型 所 需要 的 所 有 数据 , 利用 这 些 数据 可 以 从 自然 语言 文本 中 寻 











找 那些 预测 情感 的 关键 词 : 
平均 预测 错误 绝对 值 林 素 由 叶 斯 是 分 类 器 ， 因 此 需要 将 输出 的 人 se 
(也 称 为 MAE ) 是 2.4 量 (代表 情感 的 浮 点 数 ) 转换 成 离散 的 将 二 值 的 分 类 结果 变量 (0 或 


人 (整数 、 字 符 串 或 者 布尔 值 ) 1 ) 转换 到 -4 到 +4 之 问 ， 从 
而 能 够 和 标准 情感 得 分 进行 


比较 。 利 用 nb.predict_proba 
可 以 得 到 一 个 连续 值 

















>>> from sklearn.naive bayes import MultinomialNB 
>>> nb = MultinomialNB () 
>>> nb = nb.fit(df bows, movies.sentiment > 0) 


























>>> movies['predicted sentiment'] =\ 

nb.predict probal(df bows) * 8 - 4 | 
>>> movies['error'] = (movies.predicted sentiment - movies.sentiment) .abs() 
>>> movies .error.mean() .round (1) 

-人 > 2.4 

>>> movies['sentiment ispositive'] = (movies.sentiment > 0) .astype(int) 
>>> movies['predicted ispositiv'] = (movies.predicted sentiment > 0) .astype (int) 
>>> movies['''sentiment predicted sentiment sentiment ispositive\ 

predicted ispositive'''.split()].head(8) 

sentiment predicted sentiment sentiment ispositive predicted ispositive 

id 
1 2.266667 4 1 ll 
2 S533333 4 1 1 
3 -0.600000 -4 0 0 
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OO 


ew 


.466667 
7133333 
2.533333 
2.466667 
.266667 





0.9344648750589345 
这 里 点 赞 评级 的 正确 率 是 93% 
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上 上 上 上 


(movies.predicted ispositive == 
movies.sentiment ispositive) .sum() / len (movies) 


OPpPPPp 


只 需要 短 短 的 几 行 代码 ( 及 很 多 数据 )， 就 可 以 构建 一 个 不 错 的 情感 分 析 器 ， 这 确实 是 一 个 
不 错 的 开端 。 我 们 不 需要 像 VADER 一 样 构建 一 个 包含 7500 个 词 及 其 对 应 情感 得 分 的 列表 ， 而 
只 需要 给 出 一 些 文本 及 其 标注 。 这 就 是 机 器 学 习 和 NLP 的 力量 所 在 ! 

如 果 使 用 一 个 完全 不 


样 呢 ? 























样 的 情感 得 分 (如 商品 评论 而 非 电影 评论 的 得 分 ) 集 


Wr 





， 结 果 又 会 怎 


如 果 想 和 上 面 一 样 构建 一 个 实际 的 情感 分 析 咒 ， 记 得 要 对 训练 数据 进行 分 割 〈 留 出 一 个 测 


试 集 ， 要 获得 有 关 测试 集 /训练 集 的 分 割 的 更 多 信息 ， 参 见 附录 D )。 如 果 强 行 对 所 有 的 文本 











点 


Po 


赞 或 者 点 差 ， 那么 一 个 随机 猜测 的 MAE 大 概 在 4 左右。 因此 ， 上 面 的 情感 分 析 器 大 概 比 随机 
猜测 好 一 半 。 


>>> products = get datal('hutto products') 








新 的 词 袋 中 包含 了 原来 








bags_of words = [] 
>>> for text in products .text: DataFrame 词 袋 中 没有 的 
bags_of words .append (Counter (casual tokenize (text))) 词 条 (原来 的 20756 列 
>>> df _ product bows = pd.DataFrame .from records (bags_ of words) 恋 成 7 了 23303 列 ) 
>>> df product bows = df product bows .fillna(0) .astype (int) 
>>> df all bows = df bows.append(df product bows) 
>>> df all bows.columns < 
Tn Bo a Es lB 
ZOOmMmed\s' ZOOMmENG 7 ZODINS ZR 区 区 之 区 之 区 之 区 克 站 汪 ys: ELAalls 
er i] 
dtype='object', length=23302) 
>>> df product bows = df all bows.iloc[len (movies):] [df bows.columns] < 一 一 


>>> df product bows . 
(35467 20.56) 

>>> df bows .Shape 
(10605, 20756) 

>>> products[ispos] 
(products.sentiment > 0) .astype (int) 

>>> products['predicted ispositive'] = 

>» nb.predict (df product bows.values) .astype (int) 
>>> products.head () 


id 
0 


2 
3 


斑 记 pp 


sentiment 

eal -0.90 
< 和 2 -O15 
3 =0220 
24 -0510 


Shape 


这 是 原来 的 
电影 词 袋 




















text 
troubleshooting ad-2500 and ad-2600 
repost from january 13, 2004 with a ... 
does your apex dvd player only play ... 
or does it play audio and video but ... 











上 2 
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需要 确保 的 是 ， 新 的 商品 


DataFrame 词 袋 与 原来 用 于 

















训练 朴素 贝 叶 斯 模型 的 词 

















袋 具有 完全 一 样 的 列 词 条 
以 及 完全 一 样 的 列 序 


ispos 


0 


0 
0 
0 
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4 1 5 -0.50 before you try to return the player ... 0 0 
>>> (products.pred == products.ispos) .sum() / lenl(products) 
0.5572476029328821 





























因此 ， 上 述 朴素 贝 叶 斯 模型 在 预测 商品 评论 是 否 正 向 〈 即 点 赞 ) 时 表现 得 很 糟糕 。 造 成 如 此 
糟糕 效果 的 一 个 原因 是 , 利用 casual_tokenize 从 商品 文本 中 得 到 的 词汇 表 中 有 2546 个 词 条 
不 在 电影 评论 中 。 这 个 数目 大 概 是 原来 电影 评论 分 词 结果 的 10%， 也 就 是 说 这 些 词 在 朴素 贝 叶 斯 
模型 中 不 会 有 任何 权重 或 者 得 分 。 另 外 ,朴素 贝 叶 斯 模型 也 没有 像 VADER 一 样 处 理 和 否定 词 。 我 们 
必须 要 将 n-gram 放 到 分 词 器 中 才能 够 将 否定 词 ( 如 “not” 或 “never”) 与 其 修饰 的 可 能 要 用 的 正 
向 词 关联 起 来 。 

我 们 把 这 一 点 作为 NLP 实践 留 给 大 家 完成 ， 大 家 可 以 在 上 述 机 器 学 习 模 型 的 基础 上 进行 改 
进 。 大 家 也 可 以 检查 自己 在 每 一 步 上 相对 于 VADER 的 进展 ， 从 而 考虑 一 下 NLP 中 “机 带 学 习 
是 否 一 定好 于 硬 编码 算法 ”这 个 问题 。 

















































































































2.4 小 结 
国 “本章 实现 了 分 词 功能 ， 并 且 可 以 为 应 用 定制 分 词 器 。 
量 n-gram 分 词 功 能 可 以 保留 文档 中 的 一 些 词 序 信息 。 
田 归 一 化 及 词 干 还 原 将 词 分 组 ， 可 以 提高 搜索 引擎 的 召回 率 , 但 是 同时 降低 了 正确 率 。 
国 词 形 归 并 以 及 像 casual tokenize() 一 样 的 定制 化 分 词 莫 可 以 提高 正确 率 ， 减少 信息 


损失 。 
加 停 用 词 可 能 包含 有 用 的 信息 ， 去 掉 停 用 词 不 一 定 总 有 好 处 。 
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本 章 主 要 内 容 

图 对 词 和 词 项 频率 计数 来 分 析 文 档 意义 

图 利用 齐 普 夫 定 律 预测 词 的 出 现 概率 

图 词 的 向 量 表示 及 其 使 用 

图 利用 逆 文 档 频 率 从 语料库 中 寻找 相关 文档 

图 利用 余弦 相似 度 和 Okapi BM25 公式 计算 文档 间 的 相似 度 





我 们 已 经 收集 了 一 些 词 ( 词 条 )， 对 这 些 词 进行 了 计数 ， 并 将 它们 归并 成 词 干 或 者 词 元 ， 接 
下 来 就 可 以 做 一 些 有 趣 的 事情 了 。 分 析 词 对 一 些 简 单 的 任务 有 用 , 例如 得 到 词 用 法 的 一 些 统计 信 
息 , 或 者 进行 关键 词 检索 。 但 是 我 们 想 知 道 哪 些 词 对 于 某 篇 具体 文档 和 整个 语料库 更 重要 。 于 是 ， 
我 们 可 以 利用 这 个 “重要 度 ” 值 ， 基 于 文档 内 的 关键 词 重要 度 在 语料库 中 寻找 相关 文档 。 

这 样 做 的 话 , 会 使 我 们 的 垃圾 邮件 过 滤器 更 不 可 能 受制 于 电子 邮件 中 单个 粗鲁 或 者 几 个 略微 
垃圾 的 词 。 也 因为 有 较 大 范围 的 词 都 带 有 不 同 正 向 程度 的 得 分 或 标签 , 因此 我 们 可 以 度量 一 条 推 
文 的 正 癌 或 者 友好 程度 。 如 果 知 道 一 些 词 在 某 文 档 内 相对 于 剩余 文档 的 频率 , 就 可 以 利用 这 个 信 
息 来 进一步 修正 文档 的 正 向 程度 。 在 本 章 中 ,我们 将 会 学 习 一 个 更 精妙 的 非 二 值 词 度量 方法 , 它 
能 度量 词 及 其 用 法 在 文档 中 的 重要 度 。 几 十 年 来 , 这 种 做 法 是 商业 搜索 引擎 和 垃圾 邮件 过 滤器 从 
自然 语言 中 生成 特征 的 主流 做 法 。 

下 一 步 我 们 要 探索 将 第 2 章 中 的 词 转换 成 连续 值 , 而 非 只 表示 词 出 现 数 目的 离散 整数 , 也 不 
只 是 表示 特定 词 出 现 与 否 的 二 值 位 向 量 。 将 词 表示 为 连续 空间 之 后 , 就 可 以 使 用 更 令 人 激动 的 数 
学 方法 来 对 这 些 表 示 进 行 运算 。 我们 的 目标 是 寻找 词 的 数值 表示 ,这 些 表示 在 某 种 程度 上 刻画 了 
词 所 代表 的 信息 内 容 或 重要 度 。 我 们 要 等 到 在 第 4 章 中 才能 看 到 如 何 将 这 些 信 息 内 容 转 换 成 能 够 
表示 词 的 意义 的 数值 。 

本 章 将 会 考察 以 下 3 种 表示 能 力 逐 步 增强 的 对 词 及 其 在 文档 中 的 重要 度 进行 表示 的 方法 : 

量词 袋 一 一 词 出 现 频率 或 词 频 向 量 ; 

图 n-gram 袋 一 一 词 对 (2-gram )、 三 元 组 (3-gram ) 等 的 计数 ; 
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国 TF-IDF 向 量 一 一 更 好 地 表示 词 的 重要 度 的 得 分 。 


重要 说 明 TF-IDF 表示 词 项 频率 (term frequency ) 乘 以 逆 文 档 频 率 ( inverse document frequency )。 
在 上 一 章 中 我 们 曾经 学 到 过 ， 词 项 频率 是 指 每 个 词 在 某 篇 文档 中 的 出 现 次 数 。 而 逆 文 档 频 率 指 的 是 
文档 集合 中 的 文档 总 数 除 以 某 个 词 出 现 的 文档 总 数 。 


上 述 3 种 技术 中 的 每 一 种 都 可 以 独立 应 用 或 者 作为 NLP 流水 线 的 一 部 分 使 用 。 由 于 它们 都 
基于 频率 ， 因 此 都 是 统计 模型 。 在 本 书 的 后 面部 分 , 我 们 会 看 到 很 多 更 深入 观察 词 之 间 关 系 、 模 
式 和 非 线性 关系 的 方法 。 

但 是 ， 这 些 浅 层 的 NLP 机 器 已 经 很 强大 ， 对 于 很 多 实际 应 用 已 经 很 有 用 ， 例 如 垃圾 邮件 过 
滤 和 情感 分 析 。 















































3.1 词 袋 


在 第 2 章 我 们 构建 了 文本 的 第 一 个 向 量 空间 模型 。 我 们 使 用 了 每 个 词 的 独 热 向 量 , 然后 将 所 
有 这 些 向 量 用 二 进 制 OR 运算 (或 者 截断 和 ，clipped sum ) 组 合 以 创建 文本 的 向 量 表示 。 如 果 被 
加 载 到 一 个 诸如 Pandas DataFrame 的 数据 结构 中 , 这 种 二 值 的 词 袋 向 量 也 可 以 为 文档 检索 提供 一 
个 很 棒 的 索引 。 

接 下 来 考虑 一 个 更 有 用 的 向 量 表示 方法 , 它 计算 词 在 给 定 文 本 中 的 出 现 次 数 或 者 频率 。 这 里 
引入 第 一 个 近似 假设 , 假设 一 个 词 在 文档 中 出 现 的 次 数 越 多 , 那么 该 词 对 文档 的 意义 的 贡献 就 越 
大 。 相 比 于 多 次 提 到 “cats” 和 “gravity” 的 文档 ,一 篇 多 次 提 到 “wings” 和 “rudder” 的 文档 
可 能 会 与 涉及 喷气 式 飞 机 或 者 航空 旅行 的 主题 更 相关 。 或 者 ,我们 给 出 了 很 多 表达 正 向 情感 的 词 ， 
如 good、best、joy 和 fantastic， 一 篇 文档 包含 的 这 类 词 越 多 ， 就 认为 它 越 可 能 包含 了 正 向 情感 。 
然而 可 以 想象 ， 一 个 只 依赖 这 些 简单 规则 的 算法 可 能 会 出 错 或 者 误导 用 户 。 

下 面 给 出 了 一 个 统计 词 出 现 次 数 很 有 用 的 例子 : 





























>>> from nltk.tokenize import TreebankWordTokenizer 
>>> Sentence = """The faster Harry got to the store, the faster Harry, 
py the faster, would get home.™""™" 
>>> tokenizer = TreebankWordTokenizer () 
>>> tokens = tokenizer.tokenize (sentence.1lower() 
>>> tokens 

['the', 

'faster', 

larry 人 

'got', 

OE 

'the', 

'store', 


六 r 
'the', 
'faster', 
'harry', 
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。 r 六 
'the', 
faster.,y 


a 
EE 


'would', 
'get', 
'home', 


+] 
我 们 希望 通过 简单 的 列表 (list )， 来 从 文档 中 得 到 独立 的 词 及 其 出 现 次 数 。Python 的 字典 可 
以 很 好 地 实现 这 一 目标 ， 由 于 同时 要 对 词 计 数 ， 因 此 可 以 像 前 面 章节 那样 使 用 Counter: 


>>> from Collections import Counter 
>>> bag_of words = Counter (tokens) 
>>> bag of words 
Counter({'the': 4, 

"faster's 37 





"harry™s 2» 
oons. 小 y. 
3 
VStore.: 1 
Ws 
'would': 1， 
Ge 3 
"home': 1, 
Se 





使 用 Python 中 任意 一 种 较 好 的 字典 实现 ， 键 的 次 序 都 会 发 生变 换 。 新 的 次 序 针对 存储 、 更 
新 和 检索 做 了 优化 ， 而 不 是 为 了 保持 显示 的 一 臻 性， 包含 在 原始 语句 词 序 中 的 信息 内 容 被 忽略 。 


注意 collections .Couter 对 象 是 一 个 无 序 的 集合 (collection )， 也 称 为 袋 (bag ) 或 者 多 重 集 
合 (multiset )。 基 于 所 使 用 的 平台 和 Python 版 本 ,我 们 发 现 Counter 会 以 某 种 看 似 合理 的 次 序 来 
显示 ， 就 像 词 库 序 或 者 词 条 在 语句 中 出 现 的 先后 词 序 一 样 。 但 是 ， 对 于 标准 的 Python dict， 我 们 
不 能 依赖 词 条 ( 键 ) 在 Counter 中 的 次 序 。 


像 上 面 这 样 的 短文 档 , 无 序 的 词 袋 仍然 包含 了 句子 的 原本 意图 中 的 很 多 信息 。 这些 词 袋 中 的 
言 息 对 于 有 些 任 务 已 经 足够 强大 ， 这 些 任务 包括 垃圾 邮件 检测 、 情 感 (包括 倾向 性 、 满 意 度 等 ) 
计算 其 至 一 些微 妙 意 图 的 检测 如 讽刺 检测 。 虽然 这 只 是 一 个 词 袋 , 但 是 它 装 满 了 意义 和 信息 。 
此 ， 下 面 我 们 将 这 些 词 按照 某 种 方式 进行 排序 ， 以 便 能 够 对 此 有 所 了 解 。Ccounter 对 象 有 一 个 
很 方便 的 方法 most_common， 可 以 实现 上 述 目标 : 









































>>> bag of words.most common (4) < 
ONEne De MA) CT) (Lfadster i 3 Oarry -2 








在 默认 情况 下 ，most_ common0 会 按照 频率 从 高 到 低 
列 出 所 有 的 词 条 ， 这 里 只 给 出 频率 最 高 的 4 个 词 条 




















具体 来 说 ， 某 个 词 在 给 定 文档 中 出 现 的 次 数 称 为 词 项 频率 ,通常 简写 为 TF。 在 某 些 例子 中 ， 
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[= 





可 以 将 某 个 词 的 出 现 频率 除 以 文档 中 的 词 项 总 数 从 而 得 到 归 一 化 的 词 项 频率 结果 。 
上 面 的 例子 中 ， 排 名 最 靠 前 的 4 个 词 项 或 词 条 分 别 是 “the”“,” ”harry” 和 “faster”， 但 是 
“the” 和 标点 符号 “,” 对 文档 的 意图 而 言 信息 量 不 大 ,并且 这 些 信 息 量 不 大 的 词 条 可 能 会 在 我 们 
的 快速 探索 之 旅 中 多 次 出 现 。 对 本 例 来 说 , 我 们 通过 标准 的 英语 停 用 词 表 和 标点 符号 表 来 去 掉 这 
些 词 。 后面 我 们 不 会 总 是 这 样 做 , 但 是 现在 这 样 做 有 助 于 问题 的 简化 。 因 此 ,最 后 我 们 在 排名 靠 
前 的 词 项 频率 向 量 ( 词 袋 ) 中 留 下 了 “harry” 和 “faster” 这 两 个 词 条 。 
接 下 来 从 上 面 定 义 的 Counter 对 象 (bag_of worqs ) 中 计算 “harry” 的 词 频 。 


>>> times harry appears = bag of words['harry'] 原始 语句 中 的 独立 词 条 数 
>>> num unique words = len(bag of words) 



















































































>>> tf = times harry appears / num unique words 
> FoOund ttf;:-4) 
0.1818 


这 里 先 暂停 一 下 , 我 们 更 深入 了 解 一 下 归 一 化 词 项 频率 这 个 贯穿 本 书 的 术语 。 它 是 经 过 文档 
长 度 “ 调 和 ”后 的 词 频 。 但 是 为 什么 要 “调和 ” 呢 ? 考虑 词 “dog” 在 文档 A 中 出 现 3 次 ， 在 文 
档 B 中 出 现 100 次 。 显 然 , “dog” 似 乎 对 文档 B 更 重要 ， 但 是 等 等 ! 这 里 的 文档 A 只 是 一 封 写 
给 兽医 的 30 个 词 的 电子 邮件 ， 而 文档 B 却 是 包含 大 约 580 000 个 词 的 长 篇 巨著 《战争 与 和 平 》 
( War & Peace )! 因此 , 我 们 一 开始 的 分 析 结 果 应 该 正好 反 过 来 ， 即 “dog” 对 文档 A 更 重要 。 下 
列 计算 中 考虑 了 文档 长 度 : 


TF(“dog,” documents ) = 3/30 =0.1 
TF(“dog, ” documents ) = 100/580 000 = 0.000 17 


现在 ,我 们 可 以 看 到 描述 关于 两 篇 文档 的 一 些 东 西 ， 以 及 这 两 篇 文档 和 词 “dog” 的 关系 和 
两 篇 文档 之 间 的 关系 。 因 此 , 我 们 不 使 用 原始 的 词 频 来 描述 语料库 中 的 文档 ,而 使 用 归 一 化 词 项 
频率 。 类 似 地 ,我 们 可 以 计算 每 个 词 对 文档 的 相对 重要 程度 。 显 然 , 书 中 的 主人 公 Harry 及 其 对 
速度 的 要 求 是 文档 中 故事 的 中 心 。 我 们 已 经 做 了 很 多 的 工作 将 文本 转换 成 数值 ， 而且 超越 了 仅 表 
示 特 定 词 出 现 与 否 的 范围 。 当 然 , 我们 现在 看 到 的 只 是 一 个 人 为 的 例子 , 但 是 通过 这 个 例子 我 们 
能 够 快速 看 出 基于 该 方法 可 能 得 到 多 么 有 意义 的 结果 。 下 面 考虑 一 个 更 长 的 文本 片段 , 它 来 自 维 
基 百 科 中 有 关 风 第 ( kite ) 的 文章 的 前 几 个 段落 : 


A kite is traditionally a tethered heavier-than-air craft with wing surfaces that react 























against the air to create lift and drag. A kite consists of wings, tethers, and anchors. Kites 
often have a bridle to guide the face of the kite at the correct angle so the wind can lift it. A 
kites wing also may be so designed so a bridle is not needed; when kiting a sailplane for 
launch, the tether meets the wing at a single point. A kite may have fixed or moving anchors. 
Untraditionally in technical kiting, a kite consists of tether-set-coupled wing sets; even in 


technical kiting, though, a wing in the system is still often called the kite. 





J 但 是 ， 归 一 化 的 词 项 频率 实际 上 是 概率 ， 因 此 可 能 不 应 该 称 为 频率 。 

















异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 





66 


第 3 章 词 中 的 数学 





The lift that sustains the kite in flight is generated when air flows around the kite’s 
Surface, producing low pressure above and high pressure below the wings. The interaction 
with the wind also generates horizontal drag along the direction of the wind. The resultant 
force vector from the lift and drag force components is opposed by the tension of one or more 
of the lines or tethers to which the kite is attached. The anchor point of the kite line may be 
Static or moving (such as the towing of a kite by a running person, boat, free-falling anchors 
as in paragliders and fugitive parakites or vehicle). 

The same principles of fluid flow apply in liquids and kites are also used under water. 
A hybrid tethered craft comprisineg both a lighter-than-air balloon as well as a kite lifting 
Surface is called a kytoon. 

Kites have a long and varied history and many different types are flown individually and 
at festivals worldwide. Kites may be flown for recreation, art or other practical uses. Sport 
kites can be flown in aerial ballet, sometimes as part of a competition. Power kites are 
multi-line steerable Kites desiened to generate large forces which can be used to power 
activities such as kite surfing, kite landboarding, kite fishing, kite bugeying and a new trend 


Snow kiting. Even Man-lifting kites have been made. 








一 一 维基 百科 
然后 ， 将 该 文本 赋 给 变量 : 
>>> from collections import Counter 
>>> from nltk.tokenize import TreebankWordTokenizer 
>>> tokenizer = TreebankWordTokenizer () 和 上 面 一 样 , kite text= “A kite 

















>>> from nlpia.data.loaders import kite text is traditionally ...” 
>>> tokens = tokenizer.tokenize (kite text. LIower () 

>>> token counts = Counter (tokens) 

>>> token counts 

COUuMter( {thie ,20 Cal 20, “kite rrr. Ms (L950. 5 


注意 TreebankWordTokenizer 会 返回 “kite.”( 带 有 句点 ) 作为 一 个 词 条 。Treebank 分 词 器 假 
定 文档 已 经 被 分 割 成 独立 的 句子 ,因此 它 只 会 忽略 字符 串 最 末端 的 标点 符号 。 句 子 分 割 也 是 一 件 琅 
手 的 事情 ， 我 们 将 在 第 11 章 中 介绍 。 尺 管 如 此 ， 由 于 在 一 趟 扫描 中 就 完成 句子 的 分 割 和 分 词 处 理 
(还 有 很 多 其 他 处 理 ), spaCy 分 析 器 表现 得 更 快 是 更 精确 。 因 此 , 在 生产 型 应 用 中 ,可 以 使 用 spaCy 


是 前 面 在 一 些 简单 例子 中 使 用 的 NLTK 组 件 。 





好 了 ， 回 到 刚才 的 例子 里面 有 很 多 停 用 词 。 这 篇 维基 百科 的 文章 不 太 可 能 会 与 “the”“a”、 











连词 “and” 以 及 其 他 停 用 词 相 关 。 下 面 把 这 些 词 去 掉 : 





>>> import nltk 
>>> nltk.download('stopwords', quiet=True) 

True 

>>> stopwords = nltk.corpus.stopwords.words ('english') 
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3.2 向量 化 


>>> tokens = [x for x in tokens if x not in stopwords] 
>>> kite counts = Counter (tokens) 
>>> kite counts 
Counter({'kite': 16, 
'traditionally': 1, 
'tethered': 2, 


'heavier-than-air': 1, 
号 04 和 沪 六 
SW D7 


'surfaces': 1, 
人 
由 

de 


'made': 1})} 
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单纯 凭借 浏览 词 在 文档 中 出 现 的 次 数 ， 我 们 就 可 以 学 到 一 些 东 西 。 词 项 kite(s)、wing 和 1ift 





都 很 重要 。 并 且 ， 如 果 我 们 不 知道 这 篇 文章 的 主题 是 什么 ,只 是 碰巧 在 大 规模 的 类 谷歌 知识 
浏览 到 这 篇 文章 ， 那 么 我 们 可 能 “程序 化 ”地 推 新 出 ， 这 篇 文章 与 “flight” 或 者 “liff” 相 
或 者 实际 上 和 “kite” 相 关 。 

如 果 考 虑 语料库 中 的 多 篇 文档 , 事情 就 会 变 得 更 加 有 趣 。 有 一 个 文档 集 ， 这 个 文档 集中 














库 中 
关 ， 


的 每 


篇 文档 都 和 某 个 主题 有 关 , 如 放飞 风筝 ( kite flying ) 的 主题 。 可 以 想象 , 在 所 有 这 些 文档 中 “string” 
和 “wind” 的 出 现 次 数 很 多 ， 因 此 这 些 文档 中 的 词 项 频率 TF ("string") 和 TF("wind") 都 会 








很 高 。 下 面 我 们 将 基于 数学 意图 来 更 优雅 地 表示 这 些 数值 。 


3.2 向 量化 


我 们 已 经 将 文本 转换 为 基本 的 数值 。 虽然 仍然 只 是 把 它们 存储 在 字典 中 , 但 我 们 已 经 从 
文本 的 世界 中 走出 一 步 ， 而 进入 了 数学 王国 。 接 下 来 我 们 要 一 直 沿 着 这 个 方向 走 下 去 。 我们 
用 频率 字典 来 描述 文档 ， 而 是 构建 词 频 向 量 ， 在 Python 中 ， 这 可 以 使 用 列表 来 实现 ， 但 通 
是 一 个 有 序 的 集合 或 数组 。 通 过 下 列 片段 可 以 快速 实现 这 一 点 : 

































































>>> document vector = [] 
>>> doc length = len (tokens) 
>>> for key, value in kite counts.most common () : 
document vector.append (value / doc length) 
>>> document vector 
[0.07207207207207207， 
0.06756756756756757， 
0.036036036036036036, 


oo 


0.0045045045045045045] 


对 于 上 述 列表 或 者 向 量 ， 我 们 可 以 直接 对 它们 进行 数学 运算 。 
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提示 “我 们 可 以 通过 多 种 方式 加 快 对 上 述 数据 结构 的 处 理 "。 现 在 我 们 只 是 基于 基本 要 素 进行 处 理 ， 
但 很 快 我 们 就 会 想 加 快 上 面 的 步 又。 


如 果 只 处 理 一 个 元 素 , 那么 在 数学 上 没什么 意思 。 只 有 一 篇 文档 对 应 一 个 向 量 是 不 够 的 , 我 
们 可 以 获取 更 多 的 文档 , 并 为 每 篇 文档 创建 其 对 应 的 向 量 。 但 是 每 个 向 量 内 部 的 值 必须 都 要 相对 
于 某 个 在 所 有 向 量 上 的 一 致 性 结果 进行 计算 ( 即 所 有 文档 上 有 个 通用 的 东西 , 大 家 都 要 对 它 来 计 
算 )。 如 果 要 对 这 些 向 量 进行 计算 ， 那 么 需要 相对 于 一 些 一 致 的 东西 ， 在 公共 空间 中 表示 一 个 位 
置 。 向 量 之 间 需 要 有 相同 的 原点 ， 在 每 个 维度 上 都 有 相同 的 表示 尺度 〈scale ) 或 者 “单位 "”。 这 
个 过 程 的 第 一 步 是 计算 归 一 化 词 项 频率 , 而 不 是 像 在 上 一 节 中 那样 计算 文档 中 的 原始 词 频 。 第 二 
步 是 将 所 有 向 量 都 转换 到 标准 长 度 或 维度 上 去 。 

此 外 , 我 们 还 希望 每 个 文档 向 量 同一 维 上 的 元 素 值 代表 同一 个 词 。 但 我 们 可 能 会 注意 到 , 我 
们 写 给 兽医 的 电子 邮件 中 不 会 包含 《战争 与 和 平 》( War & Peace ) 中 的 许多 词 。( 也 许 会 ， 谁 知 
道 呢 ? ) 但 是 ， 如果 允许 向 量 在 不 同 的 位 置 上 都 包含 0, 那么 这 也 是 可 以 的 (事实 上 也 是 必要 的 )。 
我 们 会 在 每 篇 文档 中 找到 独立 的 词 , 然后 将 这 些 词 集合 求 并 集 后 从 中 找到 每 个 独立 的 词 。 词汇 表 
中 的 这 些 词 集合 通常 称 为 词 库 ( lexicon )， 这 与 前 面 章节 中 所 引用 的 概念 相同 ， 只 是 前 面 都 考虑 
的 是 某 个 特定 的 语料库 。 下 面 我 们 看 看 比 《 战 争 与 和 平 》 更 短 的 电影 会 是 什么 样子 。 我 们 去 看 看 
Harry， 我 们 已 经 有 了 一 篇 “文档 ”"， 下 面 我 们 用 更 多 的 文档 来 扩充 语料库 : 

>>> docs = ["The faster Harry got to the store, the faster and faster Harry 

» would get home."] 


>>> docs.append("Harry is hairy and faster than Jill.") 
>>> docs.append("Jill is not as hairy as Harry.") 





























































































































提示 如果 我们 不 只 是 在 计算 机 上 敲 出 来 这 段 程序 ， 而 是 想 一 起 玩 转 的 话 ， 那 么 可 以 从 nlpia 包 


导入 这 段 程序 : from nlpia.data.loaders import harry docs as docs。 


首先 ， 我们 来 看 看 这 个 包含 3 篇 文档 的 语料库 的 词 库 : 


>>> doc tokens = [] 
>>> for doc in docs: 
doc tokens += [sorted (tokenizer.tokenize (doc.lower()))] 

>>> len(doc tokens [0] 
pe 
>>> all doc tokens = suml(doc tokens, []) 
>>> lenl(all doc tokens) 
33 
>>> lexicon = sortedl(set(all doc tokens)) 
>>> len (lexicon) 
18 
>>> lexicon 
Ley 

1 2 








'and', 





Q@ 详 见 标题 为 “NumPy” 的 网 页 。 
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aS 
'faster', 
'get', 
'got', 
"Halry,y 
Marry 
'home', 
Hi 
中 
'not', 
'store', 
‘than 
'the', 
Eo 
'would'] 
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尽管 有 些 文档 并 不 包含 词 库 中 所 有 的 18 个 词 ， 但 是 上 面 3 篇 文档 的 每 个 文档 向 量 都 会 包含 
18 个 值 。 每 个 词 条 都 会 被 分 配 向 量 中 的 一 个 槽 位 〈slot )， 对 应 的 是 它 在 词 库 中 的 位 置 。 正 如 我 




















们 能 想到 的 那样 ， 向 量 中 某 些 词 条 的 频率 会 是 0 


>>> from collections import OrderedDict 











>>> zero vector = OrderedDict((token, 0) for token in lexicon) 


>>> zero vector 
OrderedDict([(',', 0), 








接 下 来 可 以 对 上 述 基 本 向量 进行 复制 ， 更 新 每 篇 文档 的 向 量 值 ， 然 后 将 它们 存储 到 数组 中 : 
copycopy0 构 建 了 完全 独立 的 副本 , 即 0 向 量 的 一 个 独立 














的 实例 , 而 非 复 用 一 个 指 





针 指 向 原始 对 象 的 内 存 位 置 , 否 























>>> import copy 则 , 就 会 在 每 次 循环 中 用 








新 值 重 写 相 同 的 zero_vector, 从 




















>>> doc vectors = [] 而 导致 每 次 循环 都 没有 使 用 新 的 零 向 量 


>>> for doc in docs: 





vec = Copy.copy (zero vector) < 
tokens = tokenizer.tokenize (doc.lower() 
token counts = Counter (tokens) 

for key, value in token counts.items(): 
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vec[key] = value / len(lexicon) 
doc_ vectors.append (vec) 


现在 每 篇 文档 对 应 一 个 向 量 , 我 们 有 3 个 向 量 。 那 接 下 来 怎么 办 ?我 们 能 对 它们 做 些 什 么 ? 
实际 上 , 这 里 的 文档 词 频 向 量 能 够 做 任意 向 量 能 做 的 所 有 有 趣 的 事情 ， 因 此 ， 接 下 来 我 们 首先 学 
习 一 些 有 关 向 量 和 向 量 空间 的 知识 "。 





向 量 空间 

向 量 是 线性 代数 或 向 量 代数 的 主要 组 成 部 分 。 它 是 一 个 有 序 的 数值 列表 , 或 者 说 这 些 数值 是 
句 量 空间 中 的 坐标 。 它 描述 了 空间 中 的 一 个 位 置 , 或 者 它 也 可 以 用 来 确定 空间 中 一 个 特定 的 方向 
和 大 小 或 距离 。 空 间 (space ) 是 所 有 可 能 出 现在 这 个 空间 中 的 向 量 的 集合 。 因 此 ， 两 个 值 组 成 
的 向 量 在 二 维 向 量 空间 中 ， 而 3 个 值 组 成 的 向 量 在 三 维 向 量 空间 中 ， 以 此 类 推 。 

一 张 作 图 纸 或 者 图 像 中 的 像素 网 格 都 是 很 好 的 二 维 向 量 空间 。 我 们 可 以 看 到 这 些 坐 标 顺序 的 
重要 性 。 如 果 把 作 图 纸 上 表 示 位 置 的 x 坐标 和 y 坐标 倒转 ， 而 不 倒转 所 有 的 向 量 计算 ,那么 线性 
代数 问题 的 所 有 答案 都 会 翻转 。 由 于 * 坐标 和 y 坐标 互相 正 交 ， 因 此 作 图 纸 和 图 像 是 直线 空间 或 
者 欧 几 里 得 空间 的 例子 。 我 们 在 本 章 中 讨论 的 向 量 都 是 直线 空间 ， 或 者 欧 几 里 得 空间 。 

地 图 或 地 球 仪 上 的 经 纬度 算 什 么 呢 ? 地 图 或 地 球 仪 绝对 是 一 个 二 维 向 量 空间 ， 因 为 它 是 经 度 和 
纬度 两 个 数值 的 有 序列 表 。 但 是 每 个 经 纬度 对 都 描述 了 一 个 近似 球 面 、 止 凸 不 平 的 表面 ( 地 球 的 表 
面 ) 上 的 一 个 点 。 经 纬度 坐标 不 是 精确 正 交 的 ， 所 以 经 纬度 构成 的 向 量 空间 并 不 是 直线 空间 。 这 意 
味 着 我 们 计算 像 二 维 经 纬度 向 量 一 样 的 向 量 对 或 者 非 欧 几 里 得 空间 下 的 向 量 对 所 表示 的 两 点 之 间 的 
距离 或 相似 度 时 ， 必 须 十 分 小 心 。 设 想 一 下 如 何 基于 经 纬度 坐标 计算 波 特 兰 和 纽约 之 间 的 距离 。 

图 3-1 给 出 了 二 维 向 量 (5, 5)、(3, 2) 和 (~1, 1) 的 一 种 图 示 方 法 。 向 量 的 头 部 (箭头 的 尖 ) 用 于 
表示 向 量 空间 中 的 一 个 位 置 。 因 此 ， 图 中 3 个 向 量 的 头 部 对 应 了 3 组 坐标 。 位置 向 量 的 尾部 (有 
向 线段 的 尾部 ) 总 是 在 坐标 原点 (0, 0)。 

如 果 是 三 维 向 量 空间 应 该 怎么 办 ? 我 们 生活 的 三 维 物理 世界 中 的 位 置 和 速度 可 以 用 三 维 向 量 的 坐 
标 x、y、z 来 表示 。 或 者 ， 由 所 有 经 度 -纬度 -高 度 三 元 组 形成 的 曲面 空间 可 以 描述 近 地 球 表面 的 位 置 。 

但 是 ， 我 们 不 仅仅 局 限于 三 维 空间 。 我 们 可 以 有 5 维 、10 维 、5000 维 等 各 种 维度 的 空间 。 
线性 代数 对 它们 的 处 理 方式 都 是 一 样 的 。 随 着 维 数 的 增加 ， 我 们 可 能 需要 更 加 强大 的 算 力 。 大 家 
将 会 遇 到 所 谓 的 “ 维 数 灾难 ”“ 问题， 但 是 我 们 会 到 最 后 一 章 ( 即 第 13 章 ) 再 处 理 这 个 问题 。 

对 于 自然 语言 文档 向 量 空间 ， 向 量 空间 的 维 数 是 整个 语料库 中 出 现 的 不 同 词 的 数量 。 对 于 








































































































































































































































































































@ 想 了 解 更 多 有 关 线 性 代数 和 向 量 的 知识 ， 参 考 本 书 附录 C。 

@ 大 家 需要 使 用 类 似 于 GeoPy 的 包 来 获得 数学 上 正确 的 计算 结果 。 

@) 维 数 灾难 ( curse-of-dimensionality ) 是 指 ， 随 着 维 数 的 增加 ， 向 量 之 间 的 欧 几 里 得 距离 会 呈 指 数 级 增长 。 
许多 在 10 维 或 20 维 以 上 向 量 上 的 简单 运算 变 得 不 切实 际 , 例如 根据 向 量 与 “查询 ”或 “参照 ” 向量 ( 近 
似 最 近邻 搜索 ) 的 距离 对 一 个 大 规模 的 向 量 列 表 进 行 排序 。 要 深入 理解 维 数 灾难 , 参考 维基 百科 的 “Curse 
of Dimensionality” 条 目 ， 与 本 书 的 作者 之 一 探索 超 空间 ， 使 用 Python 的 annoy 包 ， 或 者 在 谷歌 学 术 
( Google Scholar ) 中 搜索 “high dimensional approximate nearest neighbors”。 
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TF ( 和 后 面 的 TF-IDF ),， 有 时 我 们 会 用 一 个 大 写字 母 K, 称 它 为 维 空间 。 上 述 在 语料库 中 不 同 
的 词 的 数量 也 正好 是 语料库 的 词汇 量 的 规模 ， 因 此 在 学 术 论文 中 , 它 通常 被 称 为 | 四。 然后 可 以 用 
这 个 天 维 空间 中 的 一 个 天 维 向 量 来 描述 每 篇 文档 。 在 前 面 3 篇 关于 Harry 和 Jill 的 文档 语料库 中 ， 
K= 18。 因 为 人 类 无 法 轻易 地 对 三 维 以 上 的 空间 进行 可 视 化 ， 所 以 我 们 接 下 来 把 大 部 分 的 高 维 空 
间 放 在 一 边 , 先 看 一 下 二 维 空间 ,这 样 我 们 就 能 在 当前 正在 阅读 的 平面 上 看 到 向 量 的 可 视 化 表示 。 
因此 , 在 图 3-2 中 , 我 们 给 出 了 18 维 Harry 和 Jil 文档 向 量 空间 的 二 维 视图 , 此 时 天 被 简化 为 2。 

















二 维 空间 中 的 向 量 
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图 3-1 二 维 向 量 
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图 3-2 二 维 词 项 频率 向 量 


玉 维 向 量 和 一 般 向 量 的 工作 方式 是 完全 一 样 的 ， 只 是 不 太 容易 地 对 其 进行 可 视 化 而 已 。 既 然 
现在 已 经 有 了 每 个 文档 的 表示 形式 , 并 且 知道 它们 共享 公共 空间 , 那么 接 下 来 可 以 对 它们 进行 比 
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较 。 我 们 可 以 通过 向 量 相 减 ， 然 后 计算 结果 向 量 的 大 小 来 得 到 两 个 向 量 之 间 的 欧 几 里 得 距离 ， 也 
称 为 2 范 数 距 离 。 这 是 “乌鸦 ”从 一 个 向 量 的 顶点 位 置 ( 头 ) 到 男 一 个 向 量 的 顶点 位 置 飞行 的 ( 直 
线 ) 距 离 。 读 者 可 以 查看 一 下 关于 线性 代数 的 附录 C, 了 解 为 什么 欧 几 里 得 距离 对 词 频 ( 词 项 频率 ) 
向 量 来 说 不 是 一 个 好 方法 。 

如 果 两 个 向 量 的 方向 相似 ,它们 就 “相似 ”。 它 们 可 能 具有 相似 的 大 小 (长度 ), 这 意味 着 这 
两 个 词 频 ( 词 项 频率 ) 向 量 所 对 应 的 文档 长 度 基 本 相等 。 但 是 ， 当 对 文档 中 词 的 向 量 表示 进行 相 
似 度 估 算 时 , 我 们 是 否 会 关心 文档 长 度 ? 恐怕 不 会 。 我 们 在 对 文档 相似 度 进行 估算 时 希望 能 够 找 
到 相同 词 的 相似 使 用 比例 。 准 确 估算 相似 度 会 让 我 们 确信 ， 两 篇 文档 可 能 涉及 相似 的 主题 。 

余弦 相似 度 仅 仅 是 两 个 向 量 夹 角 的 余弦 值 ， 如 图 3-3 所 示 ， 可 以 用 欧 几 里 得 点 积 来 计算 : 

A.*B=|4|IB|XxcosO 

余弦 相似 度 的 计算 很 高 效 ， 因 为 点 积 不 需要 任何 对 三 角 函 数 求 值 。 此 外 , 余弦 相似 度 的 取 值 

范围 十 分 便于 处 理 大 多 数 机 顺 学 习 问题 : -1 到 +1。 
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图 3-3 ”二 维 向 量 的 夹 角 





在 Python 中 ， 可 以 使 用 
a.dot(b) == np.linalg.norm(a) * np.linalg.norm(b) / np.cos (thetal) 
求解 cos (theta) 的 关系 ,得 到 如 下 余弦 相似 度 的 计算 公式 : 
二 
HB 
或 者 可 以 采用 纯 Python ( 没有 numpy ) 中 的 计算 方法 ， 如 代码 清单 3-1 所 示 。 


代码 清单 3-1 Python 中 的 余弦 相似 度 计算 





>>> import math 
>>> def cosine siml(vecl, vec2): 
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"Let's convert our dictionaries to lists for easier matching.™"" 
vecl = [val for val in vecl.values ()] 
vec2 = [val for val in vec2.values()] 


dot prod = 0 
for i, Vv in enumerate (vecl1): 
dot prod += Vv * vec2[i] 


mag_1 = math.sqrt (sum([x**2 for x in vecl])) 
mag 2 = math.sqrt (sum([x**2 for x in vec2])) 


es return dot prod / (mag 1 * mag 2) 

所 以 , 我 们 需要 将 两 个 向 量 中 的 元 素 成 对 相 乘 ,然后 再 把 这 些 乘 积 加 起 来 ,这 样 就 可 以 得 到 
两 个 向 量 的 点 积 。 再 将 得 到 的 点 积 除 以 每 个 向 量 的 模 ( 大 小 或 长 度 )， 向 量 的 模 等 于 向 量 的 头 部 
到 尾部 的 欧 几 里 得 距离 ， 也 就 是 它 的 各 元 素平 方 和 的 平方 根 。 上 述 归 一 化 的 点 积 (normalized dot 
product ) 的 输出 就 像 余弦 函数 一 样 取 -!1 到 1 之 间 的 值 ， 它 也 是 这 两 个 向 量 夹 角 的 余弦 值 。 这 个 值 等 
于 短 向 量 在 长 向 量 上 的 投影 长 度 占 长 向 量 长 度 的 比例 ， 它 给 出 的 是 两 个 向 量 指向 同一 方向 的 程度 。 

余弦 相似 度 为 1 表示 两 个 归 一 化 向 量 完全 相同 ， 它 们 在 所 有 维度 上 都 指向 完全 相同 的 方向 。 
此 时 ， 两 个 向 量 的 长 度 或 大 小 可 能 不 一 样 , 但 是 它们 指向 的 方向 相同 。 记 住 在 计算 上 述 余弦 相似 
度 时 ， 两 个 向 量 的 点 积 除 以 每 个 向 量 的 模 的 计算 可 以 在 点 积 之 前 或 之 后 进行 。 因 此 ， 归 一 化 向 量 
在 计算 点 积 时 它们 的 长 度 都 已 经 是 1。 余弦 相似 度 的 值 越 接 近 于 1, 两 个 向 量 之 间 的 夹 角 就 越 小 。 
对 于 余弦 相似 度 接 近 于 1 的 NLP 文档 向 量 ， 我 们 知道 这 些 文档 应 该 使 用 了 比例 相近 的 相似 词 。 
因此 ， 那 些 表 示 向 量 彼 此 接近 的 文档 很 可 能 涉及 的 是 同一 主题 。 

余弦 相似 度 为 0 表示 两 个 向 量 之 间 没 有 共享 任何 分 量 。 它们 是 正 交 的 , 在 所 有 维度 上 都 互相 
垂直 。 对 于 NLP 中 的 词 频 向 量 ， 只 有 当 两 篇 文档 没有 公共 词 时 才 会 出 现 这 种 情况 。 因 为 这 些 文 
档 使 用 完全 不 同 的 词 , 所 以 它们 一 定 在 讨论 完全 不 同 的 东西 。 当 然 , 这 并 不 意味 着 它们 一 定 就 有 
不 同 的 含义 或 主题 ， 而 只 表明 它们 使 用 完全 不 同 的 词 。 

余弦 相似 度 为 -1 表示 两 个 向 量 是 反 相 似 (anti-similar ) 的 ， 即 完全 相反 ， 也 就 是 两 个 向 量 指 
向 完全 相反 的 方向 。 对 于 简单 的 词 频 向 量 , 甚至 是 归 一 化 的 词 频 ( 词 项 频率 ) 向 量 (我们 稍 后 将 
讨论 )， 都 不 可 能 会 发 生 这 种 情况 。 因 为 词 的 数目 永远 不 会 是 负数 ， 所 以 词 频 ( 词 项 频率 ) 向 量 
总 是 处 于 向 量 空间 的 同一 象限 中 。 没 有 词 项 频率 向 量 可 以 偷偷 进入 其 他 向 量 尾部 后 面 的 象限 。 词 
项 频率 向 量 的 分 量 不 可 能 与 另 一 个 词 项 频率 向 量 分 量 的 符号 相反 ， 这 是 因为 频率 不 可 能 是 负数 。 

在 本 章 中 ,对 于 自然 语言 文档 的 向 量 对 , 我 们 不 会 看 到 任何 负 的 余弦 相似 度 的 值 。 但 是 在 下 
一 章 中 ,我 们 会 给 出 互相 “对 立 ” 的 词 和 主题 的 某 个 概念 ， 这 表现 为 文 档 、 词 和 主题 之 间 的 余弦 
相似 度 小 于 零 ， 其 至 等 于 -1。 


异性 相 吸 上述 计算 余弦 相似 度 的 方法 会 带 来 一 个 有 趣 的 结果 。 如 果 两 个 向 量 或 文档 都 与 第 三 个 向 量 的 
余弦 相似 度 为 -1 ( 即 与 第 三 个 向 量 完全 相反 )， 那 么 它们 一 定 完 全 相似 ， 一 定 是 完全 相同 的 两 个 向 量 。 
但 是 ， 这 两 个 向 量 所 代表 的 文档 可 能 并 不 完全 相同 。 不 但 词 的 顺序 可 能 会 被 打 乱 ， 而 且 如 果 它 们 使 用 相 
同 词 的 比例 相同 ， 那 么 其 中 一 篇 文档 可 能 比 另 一 篇 长 得 多 。 
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后 面 , 我 们 将 针对 更 精确 地 对 文档 建 模 而 构建 文档 向 量 。 但 是 现在 , 我们 已 经 很 好 地 介绍 了 
所 需 的 工具 。 





3.3 ” 齐 普 夫 定 律 


现在 进入 我 们 的 主要 话题 一 一 社会 学 。 好 吧 , 不 算是 社会 学 , 但 是 我 们 很 快 进入 一 个 对 人 和 
词 进行 计数 的 世界 ,我 们 会 学 到 一 个 看 似 普遍 的 规则 , 它 决 定 着 大 多 数 事物 的 计数 结果 。 事 实证 
明 ， 在 语言 中 ， 就 像 大 多 数 涉 及 生物 体 的 事物 一 样 ， 模 式 比比 皆 是 。 

20 世纪 初 , 法 国 速 记 员 Jean-Baptiste Estoup 注意 到 , 他 在 许多 文档 中 费力 地 手工 计算 词 的 频 
率 时 ， 发 现 了 一 种 模式 〈 谢 天 谢 地 ， 现 在 我 们 有 了 计算 机 和 Python )。20 世纪 30 年 代 ， 美 国语 
言 学 家 乔治 . 金 斯 利 . 齐 普 夫 (George Kingsley Zipf ) 试图 将 Estoup 的 观察 结果 形式 化 ， 这 种 关 
系 最 终 以 齐 普 夫 的 名 字 命 名 : 


齐 普 夫 定律 (Zipfrs Law ) 指出 ， 在 给 定 的 自然 语言 语料库 中 ， 任 何 一 个 词 的 频率 
与 它 在 频率 表 中 的 排名 成 反比 。 





















































一 一 维基 百科 

具体 地 说 , 这 里 的 反比 例 关系 指 的 是 这 样 一 种 情况 : 排序 列表 中 某 一 项 的 出 现 频率 与 其 在 排 
序列 表 中 的 排名 成 反比 。 例 如 ， 排 序列 表 中 的 第 一 项 出 现 的 频率 是 第 二 项 的 2 倍 ， 是 第 三 项 的 3 
倍 。 对 于 任何 语料库 或 文档 , 我 们 可 以 快速 做 的 一 件 事 就 是 , 绘制 词 的 使 用 频率 与 它们 的 频率 排 
名 之 间 的 关系 。 如 果 大 家 在 对 数 - 对 数 (log-log ) 图 中 看 到 任何 不 在 直线 上 的 离 群 值 ， 那 么 这 个 
值 就 可 能 值得 进行 研究 一 下 。 

为 了 表明 齐 普 夫 定律 不 止 可 以 用 于 文字 世界 ， 我 们 给 出 了 图 3-4， 它 展示 的 是 美国 城市 人 口 
与 该 人 口 排名 之 间 的 关系 。 事 实 表 明 , 齐 普 夫 定律 适用 于 很 多 东西 的 计数 。 自 然 界 充满 了 经 历 过 
指数 级 增长 和 网 络 效应 的 系统 ， 如 人 口 动态 、 经 济 产 出 和 资源 分 配 等 。 有 趣 的 是 ， 像 齐 普 夫 定 
律 这 么 简单 的 东西 ， 竞 然 在 许多 自然 和 人 为 现象 中 都 成 立 。 诺 贝尔 奖 得 主 保罗 ， 克 鲁 格 曼 ( Paul 
Krugman ) 在 谈 到 经 济 模型 和 齐 普 夫 定律 时 是 这 样 说 的 : 

人 们 对 经 济 理论 通常 的 抱怨 是 , 我 们 的 模型 过 于 简化 ,以 至 于 它们 对 复杂 、 混 乱 的 
现实 世界 提供 了 过 于 清晰 的 看 法 。( 使 用 齐 普 夫 定 律 说 明 的 是 ) 这 句 话 反 过 来 也 是 正确 
的 : 模型 虽然 复杂 、 混 乱 ， 但 现实 世界 却 惊 人 地 简洁 和 简单 。 

这 里 给 出 的 是 克 鲁 格 曼 的 人 口 图 的 更 新 版 本 。 
就 像 我 们 在 城市 和 社交 网 络 上 看 到 的 一 样 ,， 文字 也 满足 相似 的 规律 。 接 下 来 我 们 先 从 NLTK 
下 载 布朗 语料库 〈Brown Corpus ): 






































































































































人 详 见 标题 为 “There is More than a Power Law in Zipf ”的 网 页 。 
@) 利用 Pandas 从 维基 百科 下 载 人 口 数据 ， 参 考 本 书 GitHub 上 的 nlpia.book.examples 代码 (src/nlpia/ 
book/examples/ch03_zipf.py )。 
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3.3 齐 普 夫 定律 


布朗 语料库 是 布朗 大 学 在 1961 年 创建 的 、 第 一 个 百 万 单词 的 英语 电子 语料库 。 该 





















































语料库 包含 来 自 500 个 不 同 数据 源 的 文本 , 这 些 数据 源 已 按 类 型 分 类 , 如 新 闻 、 社 论 等 。 
一 一 NLTK 文档 
井 
Ea 
长 
好 
下 
0 T T | 
5.50 6.50 7.50 8.50 9.50 
人 口 对 数值 
图 3-4 城市 人 口 的 分 布 
>>> nltk.download('brown') A 、 
>>> from nltk.corpus import brown | 布朗 语料库 的 大 小 大 概 为 3 MB 
>>> brown.words () [:10] 
['The', words() 是 NLTK corpus 对 象 内 置 的 一 个 方 
'Fulton', 法 ， 它 以 字符 串 序列 的 方式 返回 分 词 后 的 
COUntY 语料库 
'Grand', 
“可 基于 
,SSLQ 7 
REL, 
Tan 
'investigation', 
汪汪 ] 
2 OWN EAI Wor HS GES i 在 第 2 章 中 我 们 已 经 学 习 了 词性 标注 
[('The', "AT')v 


("Eulton "NPT .}y 
("OOUnty 7. NN=TL. Ys 


(Grand sys du Ths 

(EY “VNN=TIi)] 
>>> len (brown .words ()) 
TLE6LI92 


因此 ， 在 有 超过 100 万 个 词 条 的 情况 下 ， 就 有 值得 一 看 的 东西 了 : 


>>> from Collections import Counter 
>3> PUNcS ss Set (Ty A Tp Ty So Vy Vy 
i 人 
>>> word list = (x.lower() for x in brown.words() if x not in puncs) 
>>> token counts = Counter (word list) 
>>> token counts.most common (20) 
[LEthe,. ‘69971)., 
("Of » T9064L2); 
('and', 28853), 
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CE 26158) 
('a 23195) 
[人 21337) 
('that', 10594) 
(ES 10109) 
("Was > 9815) 
('he 9548) 
(VEOr!y ‘9489) 
(Cit 60) 
('with', 7289) 
('as 3) 
('his 6996) 
Ca 6741) 
('be 6377) 
(Cat S32) 
('by 5306) 
(二 5164) ] 








快速 浏览 一 下 上 述 结果 , 布朗 语料库 中 的 词 频 符合 齐 普 夫 预 测 的 对 数 线性 关系 。 "The”( 词 项 频率 
最 高 ) 出 现 的 频率 大 约 是 “of ”( 词 项 频率 次 高 ) 的 2 倍 ， 大 约 是 “and”( 词 项 频率 第 三 高 ) 的 3 倍 。 
不 信和 的话 ， 请 使 用 nlpia 包 中 的 示例 代码 (src/nlpia/book/examples/ch03_zipfpy ) 自己 运行 一 下 试 试 。 

简 而 言 之 ， 如 果 把 语料库 的 词 按照 出 现 次 数 按 降序 排列 ， 我 们 会 发 现 : 对 一 个 足够 大 的 样本 ， 出 
现 次 数 排名 第 一 的 词 在 语料库 中 的 出 现 次 数 是 排名 第 二 的 词 的 两 倍 ， 是 排名 第 四 的 词 的 4 倍 。 因 此 ， 
给 定 一 个 大 型 语料库 , 可 以 用 上 述 数字 来 粗略 统计 给 定 词 出 现在 该 语料库 的 任何 给 定 文档 中 的 可 能 性 。 


34 主题 建 模 

现在 我 们 回 到 文档 向 量 。 词 计数 是 有 用 的 , 但 是 纯 词 计数 ， 即 使 按照 文档 的 长 度 进行 归 一 化 
处 理 , 也 不 能 告诉 我 们 太 多 该 词 在 当前 文档 相对 于 语料库 中 其 他 文档 的 重要 度 信息 。 如 果 能 弄 清 
楚 这 些 信息 , 我 们 就 能 开始 描述 语料库 中 的 文档 了 。 假设 我 们 有 一 个 收集 了 所 有 风筝 书籍 的 语 料 
库 ， 那 么 几乎 可 以 肯定 的 是 ,“Kite” 这 个 词 会 在 每 一 本 书 (文档 ) 中 出 现 很 多 次 ， 但 这 不 能 提 
供 任何 新 信息 ， 对 区 分 文档 没有 任何 帮助 。 然 而 ， 像 “construction ”或 “aerodynamics” 这 样 的 
词 可 能 不 会 在 整个 语料库 中 普遍 出 现 , 但 是 对 于 这 些 词 频繁 出 现 的 那些 文档 , 我 们 会 对 每 篇 文档 
的 本 质 有 更 多 的 了 解 。 为 此 ， 我 们 需要 另 一 个 工具 。 

道 文档 频率 (IDF ), 在 齐 普 夫 定 律 下 为 主题 分 析 打 开 了 一 扇 新 的 窗户 。 我 们 从 前 面 的 词 项 频 
率 计数 器 开始 ,然后 对 它 进 行 扩展 。 我们 可 以 通过 两 种 方式 对 词 条 计数 并 对 它们 装 箱 处 理 : 对 每 
篇 文档 进行 处 理 或 遍历 整个 语料库 。 下 面 我 们 只 按 文 档 计数 。 

我 们 回 到 维基 百科 中 的 “Kite” 示 例 ， 并 获取 该 条 目下 的 男 一 部 分 文本 (history 部 分 )。 我 
们 下 面 假设 这 是 Kite 语料库 的 第 二 篇 文档 : 

































































Kites were invented in China, where materials ideal for kite building were readily 
available: silk fabric for sail material; fine, high-tensile-strength silk for flying line; and 


resilient bamboo for a strong, lightweight framework. 
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3.4 主题 建 模 77 


The kite has been claimed as the invention of the Sth-century BC Chinese philosophers 
Mozi (also Mo Di) and Lu Ban (also Gongshu Ban). By 549 AD paper kites were certainly 
being flown, as it was recorded that in that year a paper kite was used as a message for a 
rescue mission. Ancient and medieval Chinese sources describe kites beineg used for 
measuring distances, testing the wind, lifting men, signaling, and communication for military 
operations. The earliest known Chinese Kites were flat (not bowed) and often rectaneular. 
Later, tailless kites incorporated a stabilizing bowline. Kites were decorated with 
mythological motifs and legendary figures; some were fitted with strings and whistles to make 
musical sounds while flying. From China, kites were introduced to Cambodia, Thailand, India, 
Japan, Korea and the western world. 

After its introduction into India, the kite further evolved into the fighter Kite, Inown as the 
patang in India, where thousands are flown every year on festivals such as Makar Sankranti. 

Kites were known throughout Polynesia, as far as New Zealand, with the assumption 
being that the knowledge diffused from China along with the people. Anthropomorphic kites 
made from cloth and wood were used in religious ceremonies to send prayers to the gods. 
Polynesian kite traditions are used by anthropologists get an idea of early ‘primitive” Asian 
traditions that are believed to have at one time existed in Asia. 

一 一 维基 百科 
首先 ， 我们 得 到 语料库 中 的 每 篇 文档 ( 即 intro_doc 和 history doc ) 的 总 词 频 : 


>>> from nlpia.data.loaders import kite text, kite history 

>>> Kite TAtrO = uhoo nee) | | Alkeis taditonally .. 2” 
>>> intro tokens = tokenizer.tokenize (kite intro) 

>>> kite history = kite history.lower() 

>>> history tokens = tokenizer.tokenize (kite history) 
>>> intro total = len(intro tokens) 

>>> intro total 

363 

>>> history total = len (history tokens) 

>>> history total 

297 


现在 ， 有 两 篇 分 词 后 的 kite 文档 在 手 ， 我 们 看 看 “kite” 在 每 篇 文档 中 的 词 项 频率 。 我 们 将 
词 项 频率 存储 到 两 个 字典 中 ， 其 中 每 个 字典 对 应 一 篇 文档 : 
>>> intro tf = {} 


>>> history tf = {} 
>>> intro counts = Counter (intro tokens) 


“a kite is traditionally ...” 





>>> irntrotfl'kite'] = "Intro counts[l"kite'] / intro -totarl 

>>> history counts = Counter (history tokens) 

>>> history tf['kite'] = history counts['kite'] / history total 

>>> 'Term Frequency of "kite" in intro is: {:.4f}'.format (intro tf['kite']) 


'Term Frequency of "kite" in intro is: 0.0441) 
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>>> 'Term Frequency of "kite" in history is: {:.4f}'\ 
.format (history tf['kite']) 
‘Term Frequency of "kite" in history is: 0.0202"' 


好 了 ,我 们 看 到 了 两 个 数字 ， 即 “kite” 在 两 篇 文档 中 的 词 项 频率 ， 其 中 一 个 数字 是 男 一 个 
数字 的 两 倍 。 那 是 不 是 说 就 与 “kite” 的 相关 度 而 言 ，intro 部 分 就 是 history 部 分 的 两 倍 呢 ? 不 ， 
不 见得 。 因 此 ， 我 们 进一步 挖掘 一 下 。 我 们 先 看 看 其 他 一 些 词 如 “and” 的 词 项 频率 数字 : 








>>> intro tf['and'] = intro counts['and'] / intro total 
>>> history tf['and'] = history counts['and'] / history total 
>>> print('Term Frequency of "and" in intro is: {:.4f}'\ 


.format (intro tf['and'])) 
Term Frequency of "and" in intro is: 0.0275 
>>> print('Term Frequency of "and" in history is: {:.4f}'\ 
-fOrnmat (history tf"anad" yy)) 
Term Frequency of "and" in history is: 0.0303 


太 棒 了 ! 我 们 发 现 ， 这 两 篇 文档 和 “and” 的 相关 度 ， 与 它们 和 “kite” 的 相关 度 相 差 不 大 。 
这 似乎 没什么 用 , 是 吧 ? 在 本 书 的 第 一 个 例子 中 ， 系 统 似 乎 认为 “the” 是 关于 Harry 的 文档 中 最 
重要 的 单词 ， 而 在 上 面 这 个 例子 中 ,“and” 也 被 认为 与 文档 高 度 相 关 。 即 使 轻 轻 一 葡 ， 我 们 也 能 
看 出 这 不 具 启 发 意义 。 

考虑 词 项 逆 文 档 频 率 的 一 个 好 方法 是 , 这 个 词 条 在 此 文档 中 有 多 稀缺 ”如 果 一 个 词 项 在 某 篇 
文档 中 出 现 很 多 次 , 但 是 却 很 少 出 现在 语料库 的 其 他 文档 中 , 那么 就 可 以 假设 它 对 当前 文档 非常 
重要 。 这 是 我 们 迈 向 主题 分 析 的 第 一 步 ! 

词 项 的 IDF 仅仅 是 文档 总 数 与 该 词 项 出 现 的 文档 数 之 比 。 在 当前 示例 中 的 “and” 和 “kite ”， 
它们 的 IDF 是 相同 的 : 

国 ”文档 总 数 / 出 现 “and” 的 文档 数 = 2/2 = 1; 

国 ”文档 总 数 / 出 现 “kite” 的 文档 数 = 2/2 = 1; 

加 ”上面 两 个 词 项 的 计算 结果 意义 不 大 ， 我 们 看 看 男 一 个 词 “China”; 

国 fe / 出 现 “China” 的 文档 数 = 2/1 = 2。 

好 了 ， 这 下 出 现 了 一 个 不 同 的 结果 。 下 面 使 用 这 种 稀缺 度 指标 来 对 词 项 频率 加 权 : 


>>> num docs containing and = 0 
>>> for doc in [intro tokens, history tokens]: 
if 'and' in doc: 对 于 “kite” 和 “China” 类 似 


num docs containing and += 1 


接 下 来 获取 “China” 在 两 篇 文档 中 的 词 项 频率 值 : 













































































>>> intro tf['china'] = intro counts['china'] / intro total 
>>> history tfl'china'] = history counts['china'] / history total 


最 后 ， 计 算 3 个 词 的 IDF。 我 们 就 像 存储 词 项 频率 一 样 把 IDF 存储 在 每 篇 文档 的 字典 中 : 


>>> num docs = 2 
>>> intro idf = {} 
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>>> history _ idf = {} 


>>> intro idf['and'] = num docs / num docs containing and 

>>> history idf['and'] = num docs / num docs containing and 

>>> intro idf['kite'] = num docs / num docs containing kite 

>>> history idf['kite'] = num docs / num docs containing kite 
>>> intro idf['china'] = num docs / num docs containing china 
>>> history idf['china'] = num docs / num docs containing china 


然后 ， 对 文档 intro 有 : 


>>> intro tfidf = {} 








> Titro tridelangd l= 4ntro tf Tan ll * nt td£EL And 

>>> intro tfidf['kite'] = intro tf['kite'] * intro idf['kite'] 

>>> dntro tfidfl “ehninal =. i1ntro tfl ehina]) * dntro 1dfl[ chinar] 

对 文档 history 有 : 

>>> history tfidf = {} 

>>> history tfidf['and'] = history tf['and'] * history idf['and'] 

>>> history tfidf['kite'] = history tf['kite'] * history idf['kite'] 
>>>: history tfidfl"ehina") =:history-tE[l eina) * rstory. Ldfl| ‘emina"] 


3.4.1 回 到 章 普 夫 定 律 


到 现在 为 止 , 我 们 差不多 可 以 正式 开始 了 。 我 们 已 经 拥有 一 个 包含 100 万 篇 文档 的 语料库 (也 
许可 以 看 成 一 个 微型 Google )， 有 人 搜索 “cat” 这 个 词 ， 在 上 述 100 万 篇 文档 中 ， 只 有 一 篇 文档 
包含 “cat”"。 那 么 这 个 词 的 原始 或 原生 IDF 为 

1 000000/1=1 000000 
假设 有 10 篇 文档 包含 “dog”， 那么 “dog” 的 IDF 为 

1 000 000/10= 100 000 

上 述 两 个 结果 显著 不 同 。 齐 普 夫 会 说 上 面 的 差距 太 大 了 ， 因 为 这 种 差距 可 能 会 经 常 出 现 。 齐 
普 夫 定律 表明 ， 当 比较 两 个 词 如 “cat” 和 “dog” 的 词 频 时 ， 即 使 它们 出 现 的 次 数 类 似 ， 更 频繁 
出 现 的 词 的 词 频 也 将 指数 级 地 高 于 较 不 频繁 出 现 的 词 的 词 频 。 因 此 ， 齐 普 夫 定律 建议 使 用 对 数 
1og () (exp () 的 逆 函 数 ) 来 对 词 频 ( 和 文档 频率 ) 进行 尺度 的 缩放 处 理 。 这 就 能 够 确保 像 “cat” 
和 “dog” 这 样 的 词 ， 即 使 它们 出 现 的 次 数 类 似 ， 在 最 后 的 词 频 计 算 结 果 上 也 不 会 出 现 指 数 级 的 
差异 。 此 外 ， 这 种 词 频 的 分 布 将 确保 TF-IDF 分 数 更 加 符合 均匀 分 布 。 因 此 ， 我 们 应 该 将 IDF 重 
新 定义 为 词 出 现在 某 篇 文档 中 原始 概率 的 对 数 。 对 于 词 项 频率 ,我 们 也 会 进行 对 数 处 理 "。 

对 数 函 数 的 底 并 不 重要 ， 因 为 我 们 只 想 使 频率 分 布 均匀 ,而 不 是 将 值 限 定 在 特定 的 数值 范围 
内 进行 缩放 ”。 如 果 用 一 个 以 10 为 底 的 对 数 函数 ， 我 们 会 得 到 : 


















































( Gerard Salton and Chris Buckley 在 他 们 的 论文 “Term Weighting Approaches in Automatic Text Retrieval” 
中 第 一 次 展示 了 对 数 缩放 在 信息 检索 中 的 作用 。 
@ 后 面 我 们 会 看 到 如 何 将 已 经 过 对 数 缩放 处 理 的 TF-IDF 值 进行 向 量 的 归 一 化 处 理 。 
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search: cat 

idf= log(1 000 000/1)=6 
search: dog 

idf = log(1 000 000/10) = 5 


所 以 现在 要 根据 它们 在 语言 中 总 体 出 现 的 次 数 ， 对 每 一 个 TF 结果 进行 适当 的 加 权 。 
最 终 ， 对 于 语料库 D 中 给 定 的 文档 4 里 的 词 项 :， 有 : 

















:在 4 中 出 现 的 次 数 
6 4 的 长 度 
文档 数 
df D) 108g 有 含 /的 文档 数 


tfidftt, q, D) = tf(t, q) x idflt, D) 


因此 ,一 个 词 在 文档 中 出 现 的 次 数 越 多 ， 它 在 文档 中 的 TF ( 进而 TF-IDF ) 就 会 越 高 。 与 此 同时 ， 
随 着 包含 该 词 的 文档 数 增加 ， 该 词 的 IDF (进而 TF-IDF ) 将 下 降 。 现 在 ,我 们 有 了 一 个 计算 机 可 
以 处 理 的 数字 。 但 这 个 数字 到 底 是 什么 呢 ? 它 将 特定 的 词 或 词 条 与 特定 语料库 中 的 特定 文档 关联 起 
来 ， 然 后 根据 该 词 在 整个 语料库 中 的 使 用 情况 ， 为 该 词 在 给 定 文档 中 的 重要 度 赋予 了 一 个 数值 。 
在 一 些 课程 中 ， 所 有 的 计算 都 在 对 数 空间 中 进行 ， 这 样 乘法 就 变 成 加 法 ， 除 法 就 变 成 减法 : 
某 个 词 项 出 现在 某 篇 文档 中 


























的 对 数 概率 某 个 具体 词 项 在 文档 中 至 少 出 现 一 次 的 
>>> log tf = log(term occurences in doc) -\ 对 数 概率 的 对 数 ， 前 一 个 对 数 用 于 对 











IDF 线性 化 抵消 齐 普 夫 定 律 的 影响 ) 








log (num terms_ in doc) 
>>> log log idf = log(log(total num docs) -\ 





Be log (num docs containing term)) 4 

>>>, Log tf idf "= Log .tf :+ Log_idf 
TF-IDF 的 对 数 是 TF 和 IDF 乘积 的 对 数 ， 
或 者 词 频 、IDF 各 自 求 对 数 后 求 和 




















TF-IDF 这 个 独立 的 数字 ， 是 简单 搜索 引擎 的 简陋 的 基础 。 随 着 我 们 已 经 坚实 地 从 文本 领域 
进入 数字 领域 ， 是 时 候 进 行 一 些 数学 处 理 了 。 在 计算 TF-IDF 时 ， 我们 可 能 永远 不 需要 实现 前 面 
的 公式 。 线性 代数 对 于 全 面 理解 自然 语言 处 理 中 使 用 的 工具 并 不 是 必需 的 , 但 是 大 体 上 熟悉 公式 
的 工作 原理 可 以 使 它们 的 使 用 更 加 直观 。 









































3.4.2 ”相关 度 排序 


正如 在 前 面 看 到 的 那样 , 我 们 可 以 很 容易 地 比较 两 个 向 量 来 得 到 它们 的 相似 度 。 然而 我 们 也 
已 经 了 解 到 ， 仅 仅 对 词 计数 并 不 像 使 用 它们 的 TF-IDF 那样 具有 可 描述 性 。 因 此 ， 在 每 个 文档 向 
量 中 ,我 们 用 词 的 TF-IDF 替换 TF。 现 在, 向量 将 更 全 面 地 反映 文档 的 含义 或 主题 ， 如 下 面 这 个 
Harry 示例 所 示 : 
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我 们 必须 对 zero_vector 进行 复制 以 创建 一 
>>> document tfidf vectors = [] 个 新 的 独立 的 对 象 。 和 否则 ， 最 终 每 次 在 循 
>>> for doc in docs: 环 中 都 会 重 写 同一 对 象 /向 量 
> vec = Copy.copy (zero_Vector) < 





tokens = tokenizer.tokenize (doc.1lower () 
token counts = Counter (tokens) 


for key, value in token counts.items(): 
docs containing key = 0 
fOr AGC: Ln,doGSs 
if key in doc: 
docs containing key += 1 
tf = value / len (lexicon) 
if docs containing key: 
idf = lenl(docs) / docs containing key 
else: 
idf = 0 
vec[key] = tf * idf 
document tfidf vectors.append (vec) 


在 上 述 设 置 下 ,我 们 就 得 到 了 语料库 中 每 篇 文档 的 K 维 向 量 表示 。 现 在 去 打猎 吧 ! 在 这 里 也 
就 是 搜索 的 意思 。 在 给 定 的 向 量 空间 中 ,如 果 两 个 向 量 有 相似 的 角度 ， 可 以 说 它们 是 相似 的 。 想 
象 一 下 , 每 个 向 量 从 原点 出 发 , 到 达 它 规定 的 距离 和 方向 , 那些 以 相同 角度 到 达 的 向 量 是 相似 的 ， 
即使 它们 没有 到 达 相 同 的 距离 。 

如 果 两 个 向 量 的 余弦 相似 度 很 高 , 那么 它们 就 被 认为 是 相似 的 。 因 此 ,如 果 最 小 化 余弦 相似 
度 ， 就 可 以 找到 两 个 相似 的 向 量 : 


















































0SO = 0 
|4llB| 
现在 , 我 们 已 经 有 了 进行 基本 TF-IDF 搜索 的 所 有 东西 。 我们 可 以 将 搜索 查询 本 身 视 为 文档 ， 
从 而 获得 它 的 基于 TF-IDF 的 向 量 表示 。 最 后 一 步 是 找到 与 查询 余弦 相似 度 最 高 的 向 量 的 文档 ， 
并 将 这 些 文档 作为 搜索 结果 返回 。 
如 果 我 们 的 语料库 由 关于 Harry 的 3 篇 文档 组 成 ， 而 查询 是 “How long does it take to get to the 
store?”， 如 下 所 示 : 





























>>> query = "How long does it take to get to the store?" 

>>> query vec = copy.copy (zero vector) 

>>> query vec = copy.copy (zero vector) 加 ek 
copycopy0 确 保 对 独立 的 对 象 进行 处 
理 , 而 不 是 多 个 指向 同一 个 对 象 的 引用 


>>> tokens = tokenizer.tokenize (query.lower () 
>>> token counts = Counter (tokens) 


>>> for key, value in token counts.items(): 
docs containing key = 0 
for doc in documents: 
if key in _doc.lower(): 
docs containing key += 1 
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if docs containing key == 0: ~ 
continue 因此 定位 到 下 一 个 键 





tf = value / len(tokens) 
idf = len(documents) / docs containing key 
query vec[key] = tf * idf 
>>> cosine sim(query vec, document tfidf vectors[0]) 
0.5235048549676834 
>>> cosine sim(query vec, document tfidf vectors[1]) 
0.0 
>>> cosine siml(query vec, document tfidf vectors[2]) 
0.0 


我 们 可 以 比较 负责 任 地 说 , 对 于 当前 查询 , 文档 0 的 相关 度 最 高 ! 通过 这 种 方式 我 们 可 以 在 
任何 语料库 中 寻找 相关 的 文档 ,无论 是 维基 百科 的 文章 、 古 腾 堡 图 书 ， 还 是 来 自 Twitter 的 推 文 。 
看 上 去 谷歌 应 该 担心 我 们 这 个 小 搜索 引擎 的 竞争 ! 

事实 上 ， 谷 歌 的 搜索 引擎 是 安全 的 ， 完 全 不 害怕 我 们 的 竞争 。 对 每 个 查询 而 言 ， 都 必须 对 所 
有 TF-IDF 向 量 进行 “索引 扫描 ”。 这 是 一 个 复杂 度 为 O(N) 的 算法 。 由 于 使 用 了 个 排 索引 ， 大 多 
数 搜索 引擎 可 以 在 常数 时 间 ( 0(1) ) 内 响应 。 我 们 不 打算 在 这 里 实现 一 个 可 以 在 常数 时 间 内 找到 
这 些 匹配 项 的 索引 ， 但 是 如 果 大 家 对 此 感 兴趣 ， 可 以 去 探索 Whoosh 包 及 其 源码 中 最 先进 的 
Python 实现 。 第 4 章 中 , 我 们 不 介绍 如 何 构建 这 个 传统 的 基于 关键 词 的 搜索 引擎 ,而 是 给 出 捕获 
文本 含义 的 最 新 语义 索引 方法 。 

提示 在 前 面 的 代码 中 ， 我 们 去 掉 了 词 库 中 没有 找到 的 键 ， 以 避免 零 除 错误 。 但 是 更 好 的 方法 是 ， 
每 次 计算 IDF 时 分 母 都 加 1， 这 样 可 以 确保 分 母 不 为 0。 事实 上 ， 这 种 称 为 加 法 平滑 ( 拉 普 拉 斯 平 
滑 ) “的 方法 通常 会 改进 基于 TF-IDF 关键 词 搜索 的 搜索 结果 。 


关键 词 搜索 只 是 NLP 流水 线 中 的 一 个 工具 ， 而 我 们 的 目标 是 建立 一 个 聊天 机 器 人 。 然 而 ， 大 多 数 
聊天 机 器 人 高 度 依赖 搜索 引擎 。 并 且 ， 一 些 聊天 机 器 人 完全 依赖 搜索 引擎 ， 将 它 作 为 生成 回复 的 唯一 
算法 。 我 们 需要 采取 额外 的 步骤 来 将 简单 搜索 索引 ( TF-IDF ) 转换 为 聊天 机 器 人 。 我 们 需要 将 “问题 
( 即 句 子 ) -回复 ”对 形式 的 训练 数据 存储 起 来 。 然 后 ,就 可 以 使 用 TF-IDF 搜索 与 用 户 输入 的 文本 最 相 
似 的 问题 ( 即 句 子 ) 这 里 我 们 不 返回 数据 库 中 最 相似 的 语句 ， 而 是 返回 与 该 语句 关联 的 回复 。 就 像 任 
何 环 手 的 计算 机 科学 问题 一 样 ， 我 们 的 问题 可 以 通过 加 入 一 个 间接 层 来 解决 。 然 后 ， 就 可 以 聊天 了 ! 
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3.4.3 工具 


很 久 以 前 搜索 就 已 经 自动 化 处 理 ， 有 很 多 相关 的 实现 代码 。 我 们 也 可 以 使 用 scikit-learn 包 ” 
找到 与 上 一 节 结 果 相 同 的 快速 路 径 。 如 果 还 没有 使 用 附录 A 来 设置 环境 ， 以 便 包 含 scikit-learn， 

















Q@ 详 见 标题 为 “Inverted index” 的 网 页 。 

@ 详 见 标题 为 “Whoosh” 的 网 页 。 

@) 详 见 标题 为 “GitHub - Mplsbeb/whoosh: A fast pure-Python search engine” 的 网 页 。 
由 详 见 标题 为 “Additive smoothing” 的 网 页 。 

@) 详 见 标题 为 “scikit-learn: machine learning in Python” 的 网 页 。 
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可 以 用 下 面 的 方法 来 安装 它 : 


pip install scipy 
pip install sklearn 


下 面 介绍 如 何 使 用 sklearn 来 构建 TF-IDF 矩阵。sklearn TF-IDF 类 是 一 个 包含 . fit () 
和 .transform() 方 法 的 模型 ， 这 些 方法 遵循 所 有 机 顺 学 习 模 型 的 sklearn APT: 


居 为 大 多 数 文档 只 使 用 词汇 表 中 所 有 词 的 一 小 部 分 ， 所 以 TF-IDF 矩阵 的 大 部 
分 元 素 都 是 零 ， 因 此 TFIDFVectorizer 模型 会 生成 一 个 稀 琉 的 numpy 和 矩阵 












































>>> from sklearn.feature extraction.text import TfidfVectorizer 
>>> corpus = docs 
>>> Vectorizer = TfidfVectorizer (min df=1) 





>>> model = vectorizer.fit transform(corpus) < 
>>> print (model.todense() .round (2)) < 
[LO L070-: O48 :0.2 021 0.: Q.52.5* :0.32.0 0. 0 0.:21.0.: 0.64 

Qi 21.. 0 211 

[O37 0 93 70 0. Qs37 "0:29 0 037 O03 0 De 05490， 

0 fe | 

[Os O07.5 05 0 0 . 0 有 9 10 .22.10. 0529.0.29 0238 05 Os 0 
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为 方便 查看 ，.todense0) 方 法 将 稀 玖 矩阵 转 
换 回 常规 的 numpy 矩阵 (用 0 填充 空格 ) 



































利用 scikit-learn, 我们 在 上 面 的 4 行 代码 中 创建 了 一 个 由 3 个 文档 组 成 的 和 矩阵， 以 及 词 
库 中 每 个 词 项 的 逆 文 档 频率 。 现 在 有 一 个 表示 3 个 文档 ( 矩阵 的 3 行 ) 的 矩阵 〈 实 际 上 是 Python 
中 的 列表 构成 的 列表 )。 词 库 中 每 个 词 项 、 词 条 或 词 的 TF-IDF 构成 矩阵 的 列 〈 或 者 同样 说 是 每 一 行 
的 索引 )。 因 为 分 词 方 式 不 同 ， 而 且 去 掉 了 标点 符号 (原文 有 一 个 去 号 和 一 个 句号 )， 所 以 词 库 中 只 
有 16 个 词 项 。 对 大 规模 文本 而 言 ， 这 种 或 其 他 一 些 预 优化 的 TF-IDF 模型 将 为 我 们 省 去 大 量 工作 。 









































3.4.4 其 他 工具 


几 十 年 来 ，TF-IDF 矩阵 ( 词 项 -文档 矩阵 ) 一 直 是 信息 检索 (搜索 ) 的 主流 。 因 此 ， 研 究 人 
员 和 企业 花费 了 大 量 时 间 来 优化 IDF 部 分 , 以 提高 搜索 结果 的 相关 性 。 表 3-1 列 出 了 一 些 可 以 归 
一 化 和 平滑 词 项 频率 权重 的 方案 。 





表 3-1 其 他 TF-IDF 归 一 化 方法 








方案 定义 
None Ww =f 
N 
TF-IDF w, =log(f;) xlog 2 
7 











人 参考 Piero Molino 在 AI with the Best 2017 上 的 报告 “Word Embeddings Past, Present and Future”。 
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续 表 
方案 定义 
N 
TF-ICF w, =log(f;)xlog| 一 
方 
六 Nn,+0.5 
We 805 
Okapi BM25 0.5 放大 和 y 
fi 
站 
N 
maxy | 
ATC Wy 字 二 
区 攻 0.Sx 全 je 
本 max, 
N 
(10g(;) +1 .0)log 加 
LIU Ww = 7 
0.8+0.2x fx 
” 
MI w, = a 1) 
“PCO)PCI) 
PosMI w, = max(0, MI) 
PG, |e)) -Pt )Ple,) 
T-Test Ws To 
P(t Pc,)) 
x 参见 James Richard Curran 的 From Distributional to Semantic Similarity 的 4.3.5 节 
Lin98 w, = 广 
in98a ) 二 一 一 一 
y f x/f, 
n; 
Lin98b Ww, =—1x log™y 
log 方 +1 
Gref94 Wj =———— 
logm +1 














搜索 引擎 (信息 检索 系统 ) 在 查询 和 语料库 中 的 文档 之 间 匹 配 关 键 词 〈 词 项 )。 如 果 正 在 构 














Piero Molino 描述 的 替代 方案 (参见 表 3-1 )。 








的 变 体 BM25F。 
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建 一 个 搜索 引擎 ,并 且 和 希望 提供 可 能 与 用 户 所 需 内 容 匹 配 的 文档 , 那么 大 家 应 该 花 一 些 时 间 研 究 








直接 使 用 TF-IDF 余弦 距离 对 查询 结果 进行 排序 的 一 种 兰 代 方 法 是 Okapi BM25 ,或 者 其 最 新 
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3.4.5 Okapi BM25 


伦敦 城市 大 学 的 聪明 人 想 出 了 一 个 更 好 的 方法 来 给 搜索 结果 排序 。 除 了 计算 TF-IDF 余弦 相 
似 度 ,他们 还 对 相似 度 进行 了 归 一 化 和 平滑 人 处理 。 他 们 还 忽略 了 查询 文档 中 词 项 的 重复 出 现 ， 从 
而 有 效 地 将 查询 向 量 的 词 频 都 简化 为 1。 这 里 , 余弦 相似 度 的 点 积 不 是 根据 TF-IDF 向 量 的 模 ( 文 
档 和 查询 中 的 词 项 数 ) 进行 归 一 化 ， 而 是 由 文档 长 度 本 身 的 一 个 非 线性 函数 进行 归 一 化 : 


LAE “dot(td tt dtELLYY HB: 
(dot (gq tf, d tf[i]) + .25 + .75 * d num words[i] / d num words.mean())) 


通过 选择 给 用 户 提供 最 相关 结果 的 权重 方案 , 我 们 可 以 优化 流水 线 。 但 是 ,如果 所 处 理 的 语 
料 库 不 是 太 大 , 可 以 考虑 和 我 们 一 起 继续 往 下 探索 , 对 词 和 文档 的 含义 进行 更 有 用 和 更 准确 的 表 
示 。 在 后 续 章 节 中 , 我 们 将 介绍 如 何 实现 一 个 语义 搜索 引擎 , 该 引擎 可 以 找到 与 查询 中 的 词 含 义 
相似 的 文档 ， 而 不 只 是 使 用 与 查询 中 相同 词 的 文档 。 相 比 于 TF-IDF 加 权 、 词 干 还 原 和 词 形 归并 
所 希望 达到 的 目标 ,语义 搜索 要 好 很 多 。Google 和 Bing 以 及 其 他 网 络 搜索 引擎 不 使 用 语义 搜索 
方法 的 唯一 原因 是 它们 的 语料库 太 大 。 词 和 主题 的 语义 向 量 不 会 扩展 到 数 十 亿 篇 文档 , 但 是 数 百 
万 篇 文档 还 是 不 成 问题 的 。 

因此 ， 我 们 只 需要 将 最 基本 的 TF-IDF 向 量 输入 流水 线 中 ， 对 语义 搜索 、 文 档 分 类 、 对 话 系 
统 和 在 第 1 章 中 提 到 的 大 多 数 其 他 应 用 来 说 ， 我 们 就 可 以 获得 目前 最 强 的 性 能 。TF-IDF 是 流水 
线 中 的 第 一 个 阶段 ， 是 从 文本 中 提取 的 最 基本 的 特征 集 。 在 下 一 章 中 ,我 们 将 从 TF-IDF 向 量 计 
算 主题 向 量 。 相 比 于 上 述 这 些 经 过 仔细 归 一 化 和 平滑 处 理 的 任何 TF-IDF 向 量 ， 主 题 向 量 更 能 
示 词 袋 内 容 的 语义 。 当 我 们 在 第 6 章 学 习 Word2vec 词 向 量 以 及 在 后 续 章 节 中 学 习 词 和 文档 含义 
的 神经 网 络 符 入 时 ， 人 情况 会 变 得 更 好 。 




































































3.4.6 ”未 来 展望 

在 把 自然 语言 的 文本 转换 成 数值 之 后 , 我 们 就 可 以 开始 处 理 它们 ,并 用 它们 来 计算 。 我 们 将 
数值 牢 牢 掌握 在 手中 , 在 下 一 章 中 , 我 们 将 对 这 些 数值 进行 进一步 改进 ， 以 尝试 表示 自然 语言 文 
本 的 含义 或 主题 ， 而 不 仅仅 是 词 本 身 。 


























3.5 小 结 
量 任何 具有 毫秒 级 响应 时 间 的 Web 级 搜索 引擎， 其 背后 都 具有 TF-IDF 词 项 文档 矩阵 的 强 
大 力量 。 











四 “ 词 项 频率 必须 根据 其 闭 文 档 频 率 加 权 ， 以 确保 最 重要 、 最 有 意义 的 词 得 到 应 有 的 权重 。 

齐 普 夫 定律 可 以 帮助 我 们 预测 各 种 事物 的 频率 ， 包 括 词 、 字 符 和 人 物 。 

国 TF-IDF 词 项 -文档 矩阵 的 行 可 以 用 作 表 示 单 个 词 含义 的 向 量 ， 从 而 创建 词语 义 的 向 量 空 
间 模 型 。 
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国 在 大 多 数 NLP 应 用 中 ， 高 维 向 量 对 之 间 的 欧 几 里 得 距离 和 相似 度 不 能 充分 代表 它们 之 


间 的 相似 度 。 





国 余弦 距离 ， 即 向 量 之 间 的 重合 度 ， 可 以 将 归 一 化 向 量 的 元 素 相 乘 后 上 








将 乘积 相 加 ， 从 而 








实现 高 效 的 计算 。 
加 余弦 距离 是 大 多 数 自然 语言 向 量 表示 的 相似 度 计 算 方 法 。 
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本 章 主 要 内 容 

图 分 析 语 义 ( 意义 ) 以 构建 主题 向 量 

国 利用 主题 向 量 之 间 的 相似 度 来 进行 语义 搜索 
图 大 规模 语料库 上 可 扩展 的 语义 分 析 及 语义 搜索 
国 在 NLP 流水 线 中 将 语义 成 分 (主题 ) 用 作 特 征 
国 高 维 向 量 空间 的 处 理 





到 目前 为 止 , 大 家 已 经 学 会 了 不 少 自然 语言 处 理 的 技巧 。 但 现在 可 能 是 我 们 第 一 次 能 够 做 一 
点 儿 神 奇 工作 的 时 机 。 这 也 是 我 们 第 一 次 谈 到 机 器 能 够 理解 词 的 意义 。 

第 3 章 中 的 TF-IDF 向 量 ( 词 项 频率 - 逆 文 档 频率 向 量 ) 帮助 我 们 估算 了 词 在 文本 块 中 的 重要 
度 。 我 们 使 用 了 TF-IDF 向 量 和 和 矩阵 来 表明 每 个 词 对 于 文档 集合 中 一 小 段 文本 总 体 含 义 的 重要 度 。 

这 些 TF-IDF“ 重 要 度 ” 评 分 不 仅 适 用 于 词 ， 还 适用 于 多 个 词 构成 的 短 序列 ( n-gram )。 如 果 
知道 要 查找 的 确 分 词 或 n-gram， 这 些 n-gram 的 重要 度 评分 对 于 搜索 文本 非常 有 用 。 

过 去 的 NLP 实验 人 员 发 现 了 一 种 揭示 词组 合 的 意义 的 算法 ， 该 算法 通过 计算 向 量 来 表示 上 
述 词组 合 的 意义 。 它 被 称 为 潜在 语义 分 析 (latent semantic analysis，LSA )。 当 使 用 该 工具 时 , 我 
们 不 仅 可 以 把 词 的 意义 表示 为 向 量 ， 还 可 以 用 向 量 来 表示 整 篇 文档 的 意义 。 

在 本 章 中 , 我 们 将 学 习 这 些 语义 或 主题 向 量 。 我 们 将 使 用 TF-IDF 向 量 的 加 权 频 率 得 分 来 计 
算 所 谓 的 主题 得 分 , 而 这 些 得 分 构成 了 主题 向 量 的 各 个 维度 。 我 们 将 使 用 归 一 化 词 项 频率 之 间 的 
关联 来 将 词 归并 到 同一 主题 中 ， 每 个 归并 结果 定义 了 新 主题 向 量 的 一 个 维度 。 

这 些 主题 向 量 会 帮助 我 们 做 很 多 十 分 有 趣 的 事情 。 它们 使 基于 文档 的 意义 来 搜索 文档 成 为 可 
能 ， 这 称 为 语义 搜索 。 在 大 多 数 情况 下 ， 语 义 搜索 返回 的 搜索 结果 比 用 关键 词 搜索 ( TF-IDF 搜 
索 ) 要 好 得 多 。 有 时 候 ， 即 使 用 户 想 不 出 正确 的 词 来 进行 查询 ,语义 搜索 返回 的 也 正 是 他 们 所 需 











































































































@ 在 本 章 介绍 主题 分 析 时 ， 我 们 使 用 术语 “主题 向 量 ”(topic vector )。 在 第 6 章 介 绍 Word2Vec 时 ， 我 们 使 用 
术语 “ 词 向 量 ”( word vector )。 在 正式 的 NLP 教科 书 中 ， 如 Jurafsky 和 Martin 措 写 的 NLP 圣经 ， 使 用 的 是 


主题 向 量 ”。 而 “Semantic Vector Encoding and Similarity Search” 使 用 的 是 “语义 向 量 ”( semantic vector )。 
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要 的 文档 。 

同时 , 我 们 可 以 使 用 这 些 语义 向 量 来 识别 那些 最 能 代表 语句 、 文 档 或 语料库 ( 文档 集合 ) 的 
主题 的 词 和 mgram。 有 了 这 个 词 向 量 和 词 之 间 的 相对 重要 度 , 我 们 就 可 以 向 用 户 提 供 文 档 中 最 有 
意义 的 词 ， 即 那些 能 够 概括 文档 意义 的 一 组 关键 词 。 

现在 ,我 们 可 以 比较 任意 两 个 语句 或 文档 ， 并 给 出 它们 在 意义 上 的 接近 程度 。 

提示 术语 topic、semantic 和 meaning 上 共有 相似 的 含义 ， 在 讨论 NLP 时 往往 可 以 互 换 使 用 。 在 本 

章 中 ， 我 们 将 学 习 如 何 构 建 一 个 NLP 流水 线 ， 它 可 以 自己 找 出 这 类 同义词 。 该 流水 线 甚 至 可 以 找 

到 短语 “figure it outf” 和 词 “compute” 在 意义 上 的 相似 性 。 当 然 ， 机 器 只 能 “计算 ”意义 ， 而 不 能 

“理解 ”意义 。 


大 家 很 快 就 会 看 到 ， 构 成 主题 向 量 每 一 维 的 词 的 线性 组 合 是 非常 强大 的 意义 表示 方法 。 
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我 们 已 经 知道 如 何 计 算 词 语 的 频率 , 还 知道 如 何在 TF-IDF 向 量 或 矩阵 中 给 词 的 重要 度 打分 。 
但 这 还 不 够 ， 因 为 我 们 想 要 给 这 些 词 所 要 表达 的 意义 和 主题 打分 。 





4.1.1 TF-IDF 向 量 及 词 形 归并 


TF-IDF 向 量 会 对 文档 中 词 项 的 准确 拼写 形式 进行 计数 。 因 此 ， 如 果 表 达 相 同 含义 的 文本 使 
用 词 的 不 同 拼写 形式 或 使 用 不 同 的 词 ， 将 会 得 到 完全 不 同 的 TF-IDF 向 量 表示 。 这 会 使 依赖 词 条 
计数 的 搜索 引 敬 和 文档 相似 性 的 比较 变 得 乱七八糟。 

在 第 2 章 中 , 我 们 对 词尾 进行 了 归 一 化 处 理 , 使 那些 仅仅 最 后 几 个 字符 不 同 的 词 被 归并 到 同 
一 个 词 条 。 我 们 使 用 了 归 一 化 方法 〈 如 词 干 还 原 和 词 形 归 并 ) 来 创建 拼写 相似 、 含 义 通常 也 相似 
的 小 型 的 词 集合 。 我 们 用 这 些 词 集合 的 词 元 或 词 干 来 标记 这 些小 型 的 词 集合 , 然后 处 理 这 些 新 的 
词 条 而 不 是 原始 词 。 

上 述 分 析 中 ， 词 形 归并 的 方法 将 拼写 相似 的 词 放 在 一 起 ， 但 是 这 些 词 的 意义 不 一 定 相 似 。 
显然 ， 它 无 法 成 功 处 理 大 多 数 同义词 对 ,也 无 法 将 大 多 数 同 义 词 配对 。 同 义 词 的 区 别 通常 不 仅仅 
是 词 形 归并 和 词 干 还 原 处 理 的 词尾 不 同 。 更 糟糕 的 是 , 词 形 归 并 和 词 干 还 原 有 时 会 错误 地 将 反 义 
词 〈 即 意思 相反 的 词 ) 归并 在 一 起 。 

上 述 词 形 归 并 最 终 造 成 的 结果 是 ， 在 我 们 得 到 的 TF-IDF 向 量 空间 模型 下 ， 如 果 两 段 文 本 讨 
论 的 内 容 相 同 ， 但 是 使 用 了 不 同 的 词 ， 那 么 它们 在 此 空间 中 不 会 “接近 ”。 而 有 时 ， 两 个 词 形 归 
并 后 的 TF-IDF 向 量 虽然 相互 接近 ， 但 在 意义 上 根本 不 相似 。 即 使 是 第 3 章 中 给 出 的 最 先进 的 














































































































































































































@ 词 干 还 原 和 词 形 归 并 都 会 去 掉 或 者 改变 词尾 ( 词 最 后 的 几 个 字符 ) 和 前 绥 。 使 用 编辑 距离 计算 来 识别 拼 
写 相 似 〈 误 拼写 ) 的 词 会 更 好 。 
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TF-IDF 相似 度 评分 方法 , 如 Okapi BM25 或 余弦 相似 度 , 也 无 法 连接 这 些 同 义 词 或 分 开 这 些 反 义 
词 。 具 有 不 同 拼写 形式 的 同义词 所 产生 的 TF- IDF 向 量 在 向 量 空间 中 彼此 并 不 接近 。 

例如 ， 本 章 中 的 TF-IDF 向 量 ， 可 能 与 大 学 教材 中 有 关 湾 在 语义 索引 的 相似 意义 的 段落 一 点 
儿 也 不 接近 ,而 这 正 是 本 章 所 关注 的 内 容 。 但 我 们 在 本 章 中 使 用 现代 和 口语 化 的 术语 ， 而 教授 和 
研究 人 员 在 教科 书 和 讲座 中 会 使 用 更 一 致 、 更 严谨 的 语言 。 此 外 , 教授 们 在 十 年 前 使 用 的 术语 体 
系 很 可 能 随 着 过 去 几 年 的 快速 发 展 而 有 所 演变 。 例 如， 在 过 去 术语 “潜在 语义 索引 ” 比 现在 使 用 
的 “潜在 语义 分 析 ” 更 流行 。 




















4.1.2 ”主题 向 量 


当 我 们 对 TF-IDF 向 量 ( 如 加 、 减 法 ) 进行 数学 运算 时 ， 这 些 和 与 差 告诉 我 们 的 只 是 参 
算 的 向 量 表示 的 文档 中 词 的 使 用 频率 。 上 述 数学 运算 并 没有 告诉 我 们 这 些 词 背 后 的 含义 。 通 
TF-IDF 矩阵 与 其 自身 相 乘 ， 可 以 计算 词 与 词 的 TF-IDF 向 量 ( 词 共 现 或 关联 向 量 )。 但 是 利用 这 
些 稀 踊 的 高 维 向 量 进行 “向 量 推理 ”效果 并 不 好 。 这 是 因为 当 我 们 将 这 些 向 量 相 加 或 相 减 时 ， 它 
们 并 不 能 很 好 地 表示 一 个 已 有 的 概念 、 词 或 主题 。 

因此 ， 我 们 需要 一 种 方法 来 从 词 的 统计 数据 中 提取 一 些 额 外 的 信息 ， 即 意义 信息 。 我 们 需要 更 
好 地 估算 文档 中 的 词 到 底 意味 着 什么 ， 也 需要 知道 这 些 词 的 组 合 在 一 篇 具体 的 文档 中 意味 着 什么 。 
我 们 想 用 一 个 像 TF-IDF 一 样 的 向 量 来 表示 意义 ， 但 是 需要 这 个 向 量 表示 更 紧凑 、 更 有 意义 。 

我 们 称 这 些 紧凑 的 意义 向 量 为 “ 词 -主题 向 量 ”( word-topic vector ), 称 文档 的 意义 向 量 为 “ 文 
档 - 主 题 向 量 ”( document-topic vector )。 上 述 两 种 向 量 都 可 以 称 为 “主题 向 量 ”， 只 要 我 们 清楚 主 
题 向 量 所 表示 的 对 象 到 底 是 词 还 是 文档 。 

这 些 主题 向 量 可 以 很 紧凑 ,也 可 以 像 我 们 想 要 的 那样 高 维 。LSA 主题 向 量 可 以 少 到 只 有 一 维 ， 
也 可 以 多 到 有 数 千 维 。 

我 们 可 以 像 对 其 他 向 量 一 样 对 本 章 的 主题 向 量 进行 加 减 运算 。 只 是 这 里 得 到 的 向 量 和 与 向 量 
差 与 TF-IDF 向 量 (第 3 章 ) 相 比 ， 意 味 着 更 多 的 东西 。 同 时 ， 主 题 向 量 之 间 的 距离 对 于 文档 聚 
类 或 语义 搜索 之 类 的 任务 很 有 用。 以 前 ， 我 们 可 以 使 用 关键 词 和 TF-IDF 向 量 进行 聚 类 和 搜索 。 
而 现在 ， 我 们 可 以 使 用 语义 和 意义 来 进行 聚 类 和 搜索 了 1! 

处 理 完 语 料 库 之 后 ,语料库 中 的 每 篇 文档 将 会 对 应 一 个 文档 -主题 向 量 。 而 且 ， 更 重要 的 是 ， 
对 于 一 个 新 文档 或 短语 , 我 们 不 必 重 新 处 理 整 个 语料库 就 可 以 计算 得 到 其 对 应 的 新 主题 向 量 。 词 
汇 表 中 的 每 个 词 都 会 有 一 个 主题 向 量 ， 我 们 可 以 使 用 这 些 词 -主题 向 量 来 计算 词汇 表 中 部 分 词 构 
成 的 任何 文档 的 主题 向 量 。 

提示 “有 一 些 创 建 主题 向 量 的 算法 ， 如 潜在 狄 利克 雷 分 配 (Latent Dirichlet Allocation，LDiA )， 确 

实 需 要 在 每 次 添加 新 文档 时 重新 处 理 整个 语料库 。 
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Q@ 我 喜欢 像 这 样 使 用 Google Ngram Viewer 来 对 趋势 进行 可 视 化 分 析 。 
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词 库 (词汇 表 ) 中 的 每 个 词 都 有 一 个 词 -主题 向 量 。 因 此 ， 我 们 可 以 计算 任何 新 文档 的 主题 
向 量 ， 只 需 将 其 所 有 词 的 主题 向 量 相 加 即 可 。 

对 词 和 句子 的 语义 (含义 ) 进行 数值 化 表示 可 能 比较 环 手 。 对 于 像 英 语 这 样 的 “模糊 性 ” 话 
言 更 是 如 此 ， 因 为 它 包 含 多 种 方言 ,并 且 对 于 同一 个 词 有 许多 不 同 的 解释 。 即 使 是 由 英语 教授 编 
写 的 正式 英语 文本 也 无 法 回避 这 样 一 个 事实 , 即 大 多 数 英语 单词 都 具有 多 重 含义 , 这 对 任何 初学 
者 (包括 机 器 学 习 工 具 ) 都 是 一 个 挑战 。 一 个 词 具 有 多 重 含义 这 一 概念 被 称 为 一 词 多 义 : 

图 一 词 多 义 (polysemy ) 词 和 短语 包含 不 止 一 种 含义 。 

一 词 多 义 会 在 多 个 方面 影响 词 或 语句 的 语义 。 为 了 了 解 LSA 的 能 力 , 我 们 把 它们 列 在 下 面 。 
大 家 不 必 担 心 这 些 挑 战 ， 因 为 LSA 会 为 我 们 处 理 好 这 一 切 : 

加 同音 异 义 (homonym ) 词 的 拼写 和 发 音 相 同 ， 但 含义 不 同 ; 

国力 式 搭配 (zeugma ) 在 同一 句子 中 同时 使 用 同一 词 的 两 种 含义 。 

此 外 ，LSA 也 会 处 理 语 音 交 互 〈 可 以 语音 交谈 的 聊天 机 器 人 ， 如 Alexa 或 Siri ) 中 的 一 词 多 义 : 

图 同形 出 义 (homograph ) 词 的 拼写 相同 ， 但 是 发 音 不 同 ， 含 义 不 同 ; 

图 同音 异形 ( homophone ) 词 的 发 音 相同 ,但 是 拼写 不 同 ,含义 不 同 ( 这 是 语音 交互 

NLP 面 对 的 一 个 挑战 )。 
想象 一 下 ， 如 果 没 有 LSA 之 类 的 工具 在 手 ， 我 们 又 不 得 不 处 理 如 下 这 条 语句 该 怎么 办 ? 


She felt 1ess. She felt tamped down. Dim. More faint. Feint. Feigned. Fain. 
Patrick Rothfuss 


记 住 上 面 这 些 挑 战 ， 我 们 能 想象 如 何 将 一 个 100 维 ( 词 项 ) 的 TF-IDF 向 量 压缩 为 一 个 200 
维 (主题 ) 左右 的 向 量 吗 ? 这 就 像 要 确定 正确 的 原色 组 合 ， 从 而 试图 重 现 大 家 所 在 公寓 的 油漆 颜 
色 ， 这 样 就 可 以 盖 住 墙 上 的 钉子 洞 。 

我 们 需要 找到 属于 同一 个 主题 的 那些 词 维度 ， 然 后 对 这 些 词 维度 的 TF-IDF 值 求 和 ， 以 创建 
一 个 新 的 数值 来 表示 文档 中 该 主题 的 权重 。 我 们 甚至 可 以 对 词 维度 进行 加 权 以 衡量 它们 对 主题 的 
重要 度 , 以 及 我 们 所 希望 的 每 个 词 对 这 个 组 合 ( 混合 ) 的 贡献 度 。 我 们 也 可 以 用 负 权 重 来 表示 词 ， 
从 而 降低 文本 与 该 主题 相关 的 可 能 性 。 


















































































































































4.1.3 思想 实验 


我 们 来 做 一 个 思想 实验 。 假设 有 一 篇 特定 文档 的 TF-IDF 向 量 , 我 们 想 将 其 转换 为 主题 向 量 。 
我 们 可 以 设想 一 下 每 个 词 对 文档 的 主题 的 贡献 度 有 多 大 。 

假设 我 们 正在 处 理 一 些 有 关 纽 约 中 央 公 园 (NYC ) 中 宠物 的 句子 。 我 们 创建 3 个 主题 : 一 个 
与 宠物 有 关 ， 一 个 与 动物 有 关 ， 男 一 个 则 与 城市 有 关 。 我 们 可 以 把 这 些 主题 分 别称 为 “petness” 
“animalness” 和 “cityness”。 因 此 ,“petness” 主 题 会 给 “cat” 和 “dog” 这 样 的 词 打 高 分 ， 但 很 
可 能 会 忽略 “NYC” 和 “apple” 这 样 的 词 。 而 “cityness” 这 个 主题 则 会 忽略 “cat” 和 “dog” 这 
样 的 词 ， 但 可 能 会 给 “apple” 一 些 分 值 ， 因 为 有 “Big Apple” 联 盟 。 
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如 果 像 上 面 这 样 “训练 ”主题 模型 ,不 用 计算 机 ， 而 只 用 常识 ,我 们 可 能 会 得 到 一 些 下 面 这 
样 的 权重 结果 : 


>>> topic 
>>> tfidf 
np.random.rand (6) 
>>> topic['petness'] = (. 


{} 
dict(list(zip('cat dog apple lion NYC love'.split(), 


! 这 个 tfGidf 向 量 只 是 一 个 随机 的 例子 ， 就 好 像 





















































) ) ) 
3 * tfidf['cat'] +\ ee 、 
By We tfidf["qog] +\ 它 是 为 一 篇 用 这 些 词 按 随机 比例 构成 的 文档 
0 x tfidf['apple'] +\ 计算 出 来 的 
9 
2 % 它 让 ENYEGCS], 4\ 
PP 2 * tfidf['love']) S 
>>> topic['animalness'] = (.1 * tfidf['cat'] +\ 人 工 设 定 的 权重 (0.3, 0.3, 0, 0, -0.2, 0.2) 
.1 * tfidf['dog'] -\ 乘 以 上 面 虚构 的 tdf 值 ,从 而 为 虚构 的 
.1 * tfidf['apple'] +\ 随机 文档 创建 主题 向 量 。 稍 后 我 们 将 计 
.5 yx tfidf[l'lion'] +\ 算 真 实 的 主题 向 量 
.1 * tfidf['NYC'] -\ 
i * tfidf['love']) 
>>> topic['cityness'] = ( 0 * tfidf['cat'] -\ 
:1 EEidfE[ dog 4N 
志方 个 站 十 名] 
家 * tfidf['lion'] +\ 
0% EEDAELNYCS] tN 
* tfidf['love']) 














在 上 述 思 想 实验 中 , 我 们 把 可 能 表示 每 个 主题 的 词 频 加 起 来 , 并 根据 词 与 主题 关联 的 可 能 性 
对 词 频 (TF-IDF 值 ) 加 权 。 同 样 ， 对 于 那些 可 能 在 某 种 意义 上 与 主题 相反 的 词 ， 我 们 也 会 做 类 
似 的 事 ， 只 不 过 这 次 是 减 而 不 是 加 。 这 并 不 是 真实 算法 流程 或 示例 的 真正 实现 ， 而 只 是 一 个 思想 
实验 而 已 。 我 们 只 是 想 弄 明白 如 何 教会 机 器 像 人 类 一 样 思 考 。 这 里 ,我 们 只 是 很 随意 地 选择 将 词 
和 文档 分 解 为 3 个 主题 (petness 、animalness 和 cityness )。 同时， 我们 这 里 的 词汇 量 也 极其 有 限 ， 
只 有 6 个 词 。 

下 一 步 我 们 将 要 思考 ， 人 类 是 如 何 从 数学 上 确定 哪些 主题 和 词 相互 关联 以 及 这 些 关 联 的 权 
重 。 一 旦 确定 了 3 个 要 建 模 的 主题 ， 就 必须 确定 这 些 主 题 中 每 个 词 的 权重 。 我 们 按 比例 混合 词 ， 
使 主题 也 像 颜 色 混合 一 样 。 主 题 建 模 转换 ( 颜色 混合 配方 ) 是 一 个 3 x 6 的 比例 矩阵 (权重 ), 代 
表 3 个 主题 与 6 个 词 之 间 的 关联 。 用 这 个 和 矩阵 乘 以 一 个 假想 的 6 x 1 TF-IDF 向 量 , 就 得 到 了 该 文 
档 的 一 个 3 x 1 的 主题 向 量 。 

上 面 我 们 给 出 了 一 个 判断 ， 即 “cat” 和 “dog” 这 两 个 词 项 应 该 对 “petness” 主 题 有 相似 的 
贡献 度 (权重 为 0.3 )。 因 此 ，TF-IDF- 主 题 转换 和 矩阵 左上 角 的 两 个 值 都 是 0.3。 我 们 能 想象 出 用 
软件 计算 这 些 比 例 的 方法 吗 ? 请 记 住 ， 我 们 的 计算 机 可 以 读 取 、 切 分 文档 并 对 切 分 词 条 进行 计数 ， 
我 们 有 TF-IDF 向 量 来 表示 任意 多 的 文档 。 大 家 继续 阅读 时 ， 请 考虑 如 何 使 用 上 述 计数 结果 来 计 
算 词 的 主题 权重 。 

我 们 确定 “NYC” 这 个 词 项 应 该 对 “petness” 这 个 主题 有 负 向 的 权重 。 从 某 种 意义 上 说 ,， 城 
市 名 称 、 一 般 的 专 有 名 词 、 缩 写 词 及 首 字母 缩写 词 与 有 关 宠 物 的 词 几乎 没有 交集 。 想 想 词 的 交集 
意味 着 什么 ，TF-IDF 矩阵 中 是 否 有 什么 东西 代表 了 词 的 交集 ? 
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我 们 给 “love” 这 个 词 赋予 了 一 个 对 “pets” 主 题 的 正 向 的 权重 ， 这 可 能 是 因为 我 们 经 常 把 
“love” 和 有 关 宠 物 的 词 放 在 同一 个 句子 中 。 毕 竟 ， 我 们 人 类 倾向 于 喜爱 宠物 。 我 们 只 能 希望 我 们 
的 人 工 智能 也 会 同样 爱 我 们 。 

需要 注意 的 是 ， 上 面 我 们 也 将 少许 比例 的 词 “apple” 放 入 “city” 的 主题 向 量 中 。 这 可 能 是 人 工 设 
定 所 致 ， 因 为 我 们 知道 “NYC” 和 “Big Apple” 通 常 是 同义词 。 在 理想 情况 下 ， 我 们 的 语义 分 析 算 法 
可 以 根据 “apple” 和 “NYC” 在 相同 文档 中 的 共 现 频率 来 计算 出 “apple” 和 “NYC” 之 间 的 同 义 性 。 

当 阅 读 上 述 示例 “代码 ”中 的 其 余 加 权 和 时 , 我 们 尝试 猜测 应 该 如 何 得 到 这 3 个 主题 和 6 个 
词 的 权重 。 如 何 改变 它们 的 值 ? 我 们 能 用 什么 值 来 客观 地 衡量 这 些 比例 值 (权重 ) ?大 家 头脑 中 
的 语料库 可 能 和 我 们 头脑 中 的 语料库 不 一 样 , 所 以 大 家 可 能 对 这 些 词 和 为 这 些 词 赋予 的 权重 有 不 
同 的 看 法 。 对 于 这 6 个 词 和 3 个 主题 ， 我 们 能 做 些 什么 才能 达成 共识 呢 ? 


注意 ”我 们 选择 了 带 符号 的 词 权重 来 生成 主题 向 量 ， 这 允许 我 们 可 以 对 与 主题 相反 的 词 使 用 负 权 

重 。 因 为 采用 手工 计算 ， 所 以 我 们 选择 了 使 用 易于 计算 的 1 范 数 (也 称 为 曼哈顿 距离 、 出 租车 距离 

或 城市 街区 距离 ) 来 对 主题 向 量 进行 归 一 化 处 理 。 尽 管 如 此 ， 本 章 稍 后 介绍 的 LSA 实际 使 用 更 有 

用 的 2 范 数 对 主题 向 量 进行 归 一 化 处 理 。2 范 数 是 我 们 在 几何 课 上 所 熟悉 的 传统 欧 几 里 得 距离 或 长 

度 ， 也 是 毕 达 哥 拉 斯 定理 解 出 的 直角 三 角形 斜 边 的 长 度 。 

在 阅读 上 述 向 量 时 ， 大 家 可 能 已 经 意识 到 词 和 主题 之 间 的 关系 可 以 翻转 。3 个 主题 向 量 组 
成 的 3 x 6 矩阵 可 以 转 置 ， 从 而 为 词汇 表 中 的 每 个 词 生成 主题 权重 。 这 些 权重 向 量 就 是 6 个 词 
的 词 向 量 ; 


>>> word Vector = {} 






























































>>> word vector['cat'] = .3*topic['petness'] +\ 

.1l*topic['animalness'] +\ 
0O*topic['cityness' 
>>> word vector['dog'] = .3*topic['petness'] +\ 
.1l*topic['animalness'] -\ 
区 .1*topic['cityness' 
>>> word vector['apple']= 0*topic['petness'] -\ 
.1l*topic['animalness'] +\ 
.2*topic['cityness' 
>>> word vector['lion'] = 0*topic['petness'] +\ 
.5*topic['animalness'] -\ 
topLicl "Cityness’ 
>>> word vector['NYC'] = -.2*topic['petness'] +\ 
.1l*topic['animalness'] +\ 
.5*topic['cityness' 











>>> word vector['love'] = .2*topic['petness'] -\ 








.1l*topic['animalness'] +\ 








-1x*tOpicl "cityness" 
这 6 个 主题 向 量 如 图 4-1 所 示 ， 每 个 词 对 应 一 个 主题 向 量 ， 以 三 维 向 量 的 形式 表示 6 个 词 的 
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y= “animalness” 








lion 


0.5 [0, 0.5, -0.1] 





dog 
[0.3, 0.1, -0.1] 
cat 
[90.3,0.1,0] 
NYC 
[-0.2, 0.1, 0.5] 
怠 X= “petness” 
love 
[0, —0.1, 0.2] 






apple 


z= “cityness” [0;—0:1; .0.2] 


图 4-1 关于 pets 和 NYC 的 6 个 词 的 思想 实验 的 三 维 向 量 


之 前 , 每 个 主题 用 向 量 来 表示 ,而 每 个 向 量 中 给 出 了 每 个 词 的 权重 , 我 们 在 3 个 主题 中 使 用 
六 维 向 量 来 表示 词 的 线性 组 合 结果 。 在 上 述 思想 实验 中 ， 我 们 为 单 篇 自然 语言 文档 手工 建立 了 一 
个 三 主题 模型 ! 如 果 只 是 计算 这 6 个 词 的 出 现 次 数 , 并 将 它们 乘 以 权重 ， 就 会 得 到 任何 文档 的 三 
维 主题 向 量 。 三 维 向量 很 有 意思 ， 因 为 它们 很 容易 实现 可 视 化 。 我 们 可 以 绘制 出 这 些 三 维 向 量 ， 
并 以 图 形 形 式 来 与 他 人 共享 关于 语料库 或 具体 文档 的 一 些 看 法 ,三 维 向 量 ( 或 任何 低 维 向 量 空间 ) 
对 于 机 天 学 习 分 类 问题 也 很 有 用 。 分 类 算法 可 以 用 平面 (或 超 平面 ) 分 割 向 量 空间 ， 从 而 将 向 量 
空间 划分 为 类 别 。 

我 们 语料库 中 的 文档 可 能 会 使 用 更 多 的 词 ， 但 是 这 个 特定 的 主题 向 量 模型 只 会 受到 这 
6 个 词 的 用 法 的 影响 。 我 们 可 以 将 这 种 方法 扩展 到 尽 可 能 多 的 词 ， 只 要 我 们 有 足够 的 耐心 
(或 算法 )。 只 要 模型 还 需要 根据 3 个 不 同 的 维度 或 主题 来 区 分 文档 ， 词 汇 表 就 可 以 像 我 们 
希望 的 那样 不 断 增 长 。 在 上 述 思想 实验 中 , 我 们 将 六 维 (TF-IDF 归 一 化 频率 ) 压缩 为 三 维 
(主题 )。 

上 述 主观 的 .人 力 耗费 型 的 语义 分 析 方法 依赖 人 们 的 直觉 和 常识 来 将 文档 分 解 为 主题 .但 是 ， 
常识 很 难 编码 到 算法 中 "。 因 此 ， 上 述 方法 是 不 可 重 现 的 ， 我 们 可 能 会 得 到 和 前 面 不 一 样 的 权 
重 。 显然 , 这 并 不 适合 机 器 学 习 流 水 线 。 另 外 ,上 述 做 法 也 不 能 很 好 地 扩展 到 更 多 的 主题 和 词 。 
人 类 无 法 将 足够 多 的 词 分 配给 足够 多 的 主题 ,从 而 精确 捕获 需要 机 需 处 理 的 任何 不 同类 型 语 料 
库 中 的 文档 的 含义 。 



















































































Q 斯 坦 福 大 学 的 Doug Lenat 正 试图 将 常识 编码 到 算法 中 。 参 见 《 连 线 》 杂 志 上 的 文章 “Doug Lenat's Artificial 
Intelligence Common Sense Engine” 。 
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下 面 我 们 来 实现 上 述 手工 过 程 的 自动 化 ,我 们 将 使 用 一 种 不 依赖 常识 的 算法 来 选择 主题 权重 。 

如 果 我 们 稍微 想 一 下 ， 就 会 知道 每 一 个 加 权 和 其 实 都 是 一 个 点 积 ，3 个 点 积 (加 权 和 ) 就 是 
一 个 矩阵 乘法 ， 或 者 说 是 内 积 。 将 一 个 3 x n 的 权重 矩阵 与 TF-IDF 向 量 相 乘 (文档 中 每 个 词 对 
应 一 个 值 ), 其 中 是 词汇 表 中 的 词 项 数 。 这 个 乘法 的 输出 是 表示 该 文档 的 一 个 新 的 3 x 1 主题 向 
量 。 我 们 所 做 的 就 是 将 一 个 向 量 从 一 个 向 量 空间 ( TF-IDF ) 转换 到 另 一 个 低 维 向 量 空间 ( 主题 向 
量 )。 我们 的 算法 应 该 创建 一 个 n 个 词 项 乘 以 m 个 主题 的 和 矩阵， 我 们 可 以 将 其 乘 以 文档 的 词 频 向 
量 ， 从 而 得 到 该 文档 的 新 主题 向 量 。 

注意 在 数学 中 ,词汇 表 ( 一 种 语言 中 所 有 可 能 的 词 的 集合 ) 的 大 小 通常 写成 | 风 。 变 量 亚 单 独 用 于 

表示 词汇 表 中 可 能 的 词 集合 。 所 以 ， 如 果 我 们 正在 写 一 篇 关于 NLP 的 学 术 论 文 ， 在 任何 用 n 来 描 

述 词汇 表 的 大 小 的 地 方 ， 都 可 以 用 | 由 来 描述 。 






























































4.1.4 ”一 个 主题 评分 算法 
我 们 仍然 需要 一 种 算法 来 确定 上 面 提 到 的 主题 向 量 ， 我 们 也 需要 将 TF-IDF 向 量 转换 为 主题 
向 量 。 机 器 无 法 分 辩 哪 些 词 应 该 属于 同一 组 ， 或 者 它们 当中 的 任何 一 个 表示 什么 含义 ， 对 不 对 ? 
20 世纪 的 英国 语言 学 家 J R. Firth 研究 了 如 何 估计 一 个 词 或 语素 ”的 含义 。1957 年 ， 他 给 出 了 一 
条 如 何 计算 词 主题 的 线索 ， 他 写 道 : 
可 以 通过 词 的 上 下 文 来 理解 它 。 














一 一 JR. Firth 


那么 , 如 何 来 表示 词 的 上 下 文 呢 ? 嗯 , 最 直接 的 方法 是 计算 词 和 上 下 文 在 同一 文档 中 的 共 现 
次 数 。 第 3 章 中 的 词 袋 (BOW ) 和 TF-IDF 向 量 可 以 满足 这 一 需求 。 这 种 计算 共 现 次 数 的 方法 导 
致 了 多 个 算法 的 出 现 ， 这 些 算法 通过 创建 向 量 来 表示 文档 或 句子 中 词 使 用 的 统计 信息 。 

LSA 是 一 种 分 析 TF-IDF 矩阵 ( TF-IDF 向 量 构成 的 表格 ) 的 算法 ， 它 将 词 分 组 到 主题 中 。 
LSA 也 可 以 对 词 袋 向 量 进行 处 理 ， 但 是 TF-IDF 向 量 给 出 的 结果 稍 好 一 些 。 

LSA 还 对 这 些 主题 进行 了 优化 , 以 保持 主题 维度 的 多 样 性 。 当 使 用 这 些 新 主题 而 不 是 原始 词 
时 ， 我 们 仍然 可 以 捕获 文档 的 大 部 分 含义 (语义 )。 该 模型 中 用 于 捕获 文档 含义 所 需 的 主题 数量 
远 远 少 于 TF-IDF 向 量词 汇 表 中 的 词 的 数量 。 因 此 ，LSA 通常 被 认为 是 一 种 降 维 技术 。LSA 减少 
了 捕获 文档 含义 所 需 的 维 数 。 

大 家 是 否 曾经 对 一 个 大 型 数值 矩阵 使 用 过 降 维 技术 呢 ? 如 像素 矩阵 ? 如 果 大 家 对 图 像 或 其 
他 高 维 数据 进行 过 机 器 学 习 , 那么 可 能 会 遇 到 一 种 称 为 主 成 分 分 析 ( principal component analysis ， 




























































































Q@ 维基 百科 有 关 topic model 的 条 目的 网 页 中 给 出 了 一 个 视频 ,该 视频 展示 了 更 多 主题 和 词 上 的 主题 建 模 模 
型 。 像 素 的 黑色 程度 代表 了 主题 和 词 的 权重 或 者 得 分 ， 就 像 这 里 给 出 的 手工 示例 一 样 。 该 视频 给 出 的 是 
一 个 称 为 SVD 的 具体 算法 ， 它 将 词 和 主题 进行 重 排 ， 以 尽 可 能 在 对 角 线 中 给 予 更 大 的 权重 。 该 算法 能 
够 帮助 识别 能 够 同时 表示 主题 和 词 的 意义 的 模式 。 

@) 语素 (morpheme ) 是 一 个 词 的 最 小 意义 单元 。 参 见 维基 百科 条 目 “Morpheme”。 
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PCA ) 的 技术 。 事 实证 明 ，PCA 和 LSA 的 数学 计算 方法 是 一 样 的 。 然 而 ， 当 减少 图 像 或 其 他 数 
值 表格 而 不 是 词 袋 向 量 或 TF-IDF 向 量 的 维 数 时 ， 我 们 就 说 这 是 PCA。 

直到 最 近 ， 研 究 人 员 才 发 现 也 可 以 使 用 PCA 对 词 进 行 语义 分 析 。 这 时 他 们 给 这 个 特定 的 应 
用 起 了 一 个 它 自 己 的 名 字 LSA。 尽 管 我 们 将 很 快 看 到 要 使 用 的 是 scikit-learn PCA 模型 , 但 
是 这 个 拟 合 与 转换 过 程 的 输出 是 一 个 表示 文档 语义 的 向 量 ， 它 仍然 是 LSA。 

此 外 ， 我 们 还 可 能 会 遇 到 LSA 的 另 一 个 同义词 。 在 信息 检索 领域 ， 我 们 关注 的 是 为 全 文本 
搜索 建立 索引 ，LSA 通常 被 称 为 潜在 语义 索引 (latent semantic indexing，LSI )。 但 这 个 术语 已 经 
不 再 流行 ,因为 它 根本 不 产生 任何 索引 。 事 实 上 , 它 生成 的 主题 向 量 通常 由 于 维度 过 高 而 无 法 被 
完美 地 索引 。 所 以 我 们 从 这 里 开始 使 用 LSA 这 个 术语 。 


提示 ”通过 对 数据 库 构 建 索引 ， 我 们 能 够 根据 某 一 行 的 部 分 信息 来 快速 检索 出 表 中 的 这 一 行 。 教 材 
中 索引 的 工作 流程 如 下 : 如 果 要 寻找 特定 的 页 面 ,那么 可 以 在 索引 中 查找 页 面 应 该 包含 的 词 。 然 后 ， 
我 们 就 可 以 直接 访问 包含 所 有 要 找 的 词 的 一 个 或 多 个 页 面 。 


LSA 的 “ 堂 兄 弟 ” 们 


有 两 种 算法 与 LSA 相似 ， 它 们 也 有 相似 的 NLP 应用， 因此 我 们 在 这 里 一 并 提 一 下 它们 : 

国 线性 判别 分 析 (linear discriminant analysis，LDA ); 

加 潜在 狄 利 克 雷 分 布 (latent Dirichlet allocation, LDiA ) “。 

LDA 将 文档 分 解 到 单个 主题 中 。 而 LDiA 则 更 像 LSA， 因 为 它 可 以 将 文档 分 解 到 任意 多 个 主题 中 。 


提示 因为 LDA 是 一 维 的 ， 所 以 它 不 需要 奇异 值 分 解 (singular value decomposition，SVD )。 我 们 
可 以 只 计算 二 类 ( 如 垃圾 和 非 垃 圾 ) 问题 中 每 一 类 的 所 有 TF-IDF 向 量 的 质心 (平均 值 )。 我 们 的 维 
度 就 变 成 了 这 两 个 质心 之 间 的 直线 。TEF-IDF 向 量 与 这 条 直线 越 近 (TF-IDF 向 量 与 这 条 直线 的 点 积 )， 
就 表示 它 与 其 中 一 个 类 越 近 。 


下 面 先 给 出 了 用 于 主题 分 析 的 简单 LDA 方法 的 一 个 示例 ,以 便 在 使 用 LSA 和 LDiA 之 前 让 
大 家 热 热身 做 点 准备 工作 。 



















































































4.1.5 一 个 LDA 分 类 器 


我 们 将 会 发 现 ，LDA 是 最 直接 也 最 快速 的 降 维 和 分 类 模型 之 一 。 但 本 书 可 能 是 少 有 的 大 家 
会 读 到 它 的 地 方 之 一 ， 因 为 它 本 身 不 是 很 光彩 夺目 。 但 是 在 许多 应 用 中 ， 我 们 会 发 现 它 具 有 上 比 
最 新 论文 中 发 表 的 更 炫 栈 的 算法 更 高 的 精确 率 。LDA 分 类 器 是 一 种 有 监督 算法 ， 因 此 需要 对 文 
档 的 类 进行 标注 。 但 是 LDA 所 需要 的 训练 样本 数 要 比 更 炫 酷 的 算法 少 得 多 。 


















































Q@ 这 里 我 们 采用 LDiA 这 种 缩写 形式 来 表示 潜在 狄 利克 雷 分 布 ,或许 Panupong (ce) Pasupat 会 赞同 这 一 点 。 
Panupong 是 斯 坦 福 大 学 一 门 有 关 LDiA 的 在 线 计 算 机 科学 NLP 课程 的 授课 老师 。 
@ 读者 可 以 在 20 世纪 90 年 代 的 论文 中 看 到 它 ， 那 个 时 候 人 们 需要 十 分 高 效 地 使 用 自己 的 计算 和 数据 资源 。 
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在 本 例 中 ， 我 们 给 出 了 LDA 的 一 个 简单 的 实现 版 本 ， 该 实现 无 法 在 scikit-learn 中 找 
到 。 模 型 训练 只 有 3 个 步骤 ,我 们 可 以 直接 使 用 Python 来 实现 。 

(1 ) 计算 某 个 类 〈 如 垃圾 短 消 息 类 ) 中 所 有 TF-IDF 向 量 的 平均 位 置 ( 质心 )。 

(2 ) 计算 不 在 该 类 ( 如 非 垃圾 短 消息 类 ) 中 的 所 有 TF-IDF 向 量 的 平均 位 置 (质心 )。 

(3 ) 计算 上 述 两 个 质心 之 间 的 向 量 差 ( 即 连接 这 两 个 向 量 的 直线 )。 

要 “训练 ”LDA 模型 ,只 需 找 到 两 个 类 的 质心 之 间 的 向 量 ( 直线 ), LDA 是 一 种 有 监督 算法 ， 
因此 需要 为 消息 添加 标签 。 要 利用 该 模型 进行 推理 或 预测 ， 只 需要 判断 新 的 TF-IDF 向 量 是 否 更 
接近 类 内 (垃圾 类 ) 而 不 是 类 外 《〈 非 垃圾 类 ) 的 质心 。 首 先 ， 我 们 来 训练 一 个 LDA 模型 ， 将 短 


























消息 分 为 垃圾 类 或 非 垃圾 类 ( 如 代码 清单 4-1 所 示 )。 
代码 清单 4-1 ”垃圾 短 消息 数据 集 





>>> from nlpia.data.loaders import get data 出 中 显示 宽 列 的 短 消 息 文本 
>>> pd.options.display.width = 120 

>>> sms = get datal'sms-spam') 

>>> index = ['sms{}{}'.format (i, '!'*j) for (i,j) in\ 

5 zip (range (len (sms)), sms.spam)] 

>>> sms = pd.DataFrame (sms.values, columns=sms.columns, index=index) 


>>> import pandas as pd 这 一 行 有 助 于 在 Pandas DataFrame 打印 输 


























>>> sms['spam'] = sms.spam.astype (int) 
>>> len (sms) 
4837 这 只 是 为 了 显示 。 我 们 已 经 通过 添加 感叹 
>>> sms.spam.sum() 号 ! 标注 了 垃圾 得 消息 
638 
>>> sms.head (6) 
spam text 
sms0 0 Go until jurong point, crazy.. Available only ... 
smsl 0 Ok lar... Joking wif u oni... 
sms2! 1 Free entry in 2 a wkly comp to win FA Cup fina... 
sms3 0 U dun say so early hor... U c already then say... 
sms4 0 Nah I don't think he goes to usf, he lives aro... 
sms5! 1 FreeMsg Hey there darling it's been 3 week's n... 


因此 ， 上 述 数 据 集中 有 4837 条 短 消息 ， 其 中 638 条 被 标注 为 二 类 标签 “spam”( 垃圾 类 )。 
下 面 我 们 就 对 所 有 这 些 短 消 息 进 行 分 词 ， 并 将 它们 转换 为 TF-IDF 向 量 : 


>>> from sklearn.feature extraction.text import TfidfVectorizer 
>>> from niltk.tokenize.casual import casual tokenize 

>>> tfidf model = TfidfVectorizer (tokenizer=casual tokenize) 
>>> tfidf docs = tfidf model.fit transform(\ 

ee raw_documents=sms.text) .toarray() 

>>> tfidf docs.shape 





C43 -0232) 
>>> sms.spam.sum!() 
638 














nltk.casual tokenizer 处 理 后 的 词汇 表 中 包含 9232 个 词 。 词 的 数量 几乎 是 短 消息 数 的 两 倍 ， 
是 垃圾 短 消息 数 的 十 倍 。 因 此 ,模型 不 会 有 很 多 有 关 垃 圾 短 消息 指示 词 的 信息 。 通常， 当 词 汇 表 
的 规模 远 远大 于 数据 集中 标注 的 样本 数量 时 ,朴素 贝 叶 斯 分 类 器 就 不 是 很 奏效 ， 而 这 种 情况 下 本 
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章 的 语义 分 析 技 术 就 可 以 提供 帮助 。 
下 面 先 从 最 简单 的 语义 分 析 技术 LDA 开始 。 我 们 可 以 在 sklearn.discriminant analysis. 
LinearDiscriminantAnalysis 中 使 用 LDA 模型 。 但 是 ， 为 了 训练 这 个 模型 ， 只 需要 计算 
两 个 类 ( 垃圾 类 和 非 垃圾 类 ) 的 质心 ， 因 此 我 们 可 以 直接 这 样 做 : 
可 以 使 用 掩 码 从 numpy.array 或 pandas. 
DataFrame 中 仅 返 回 垃圾 类 的 行 
>>> mask = sms.spam.astype (bool) .values < 


>>> spam centroid = tfidf qdqocs [mask] .mean (axis=0) < 
>>> ham centroid = tfidf docs[~mask] .mean (axis=0) 









































>>> spam centroid.round (2) 因为 TF-IDF 向 量 是 行 向 量 , 所 以 需 
arrav( [O00 Os; 天 天 和 的 | 要 确保 numpy 使 用 axis=0 独立 计算 
>>> ham centroid.roungd(2) 每 一 列 的 平均 值 

Srray (lO0-.:02 0 人 ;0 i 0 ]) 


现在 可 以 用 一 个 质心 向 量 减 去 另 一 个 质心 向 量 从 而 得 到 分 类 线 : 
>>> spamminess score = tfidf docs.dot(spam centroid -\ 


ham centroid) _ 
该 点 积 是 每 个 向 量 
>>> spamminess score.round(2) 该 点 积 计 算 的 是 个 向 量 在 


ee 
array([-0.01，-0.02，0.04，...，-0.01，-0. ，0. ]) | 质心 连 线 上 的 “阴影 ”投影 








这 个 原始 的 spamminess_score 得 分 是 非 垃圾 类 质心 到 垃圾 类 质心 的 直线 距离 。 我们 用 点 
积 将 每 个 TF-IDF 向 量 投影 到 质心 之 间 的 连 线 上 ,从 而 计算 出 这 个 得 分 ,在 一 个 “向 量化 ”的 numpy 
运算 中 , 我 们 同时 完成 了 4837 次 点 积 计 算 。 与 Python 循环 相 比 , 这 可 以 将 处 理 速 度 提 高 100 倍 。 

4-2 给 出 了 三 维 TF-IDF 向 量 的 视图 ， 同 时 给 出 了 短 消 息 数据 集 类 的 质心 所 在 的 位 置 。 








图 4-2 TF-IDF 向 量 的 三 维 散 点 图 ( 点 云 ) 
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图 4-2 中 从 非 垃圾 类 质心 到 垃圾 类 质心 的 箭头 就 是 模型 训练 得 到 的 直线 ,该 直线 定义 了 模型 。 
我 们 可 以 看 到 箭头 尾部 一 些 淡色 点 〈 彩 色 图 中 为 绿 点 ) 的 分 布 情况 ， 当 将 它们 投影 到 质心 的 连 线 
上 时 ， 我 们 可 能 会 得 到 一 个 负 的 垃圾 信息 评分 。 

在 理想 情况 下 ,我 们 希望 上 述评 分 就 像 概率 那样 取 值 在 0 到 1 之 间 。sklearnMinMaxScaler 
可 以 帮 有 我 们 做 到 这 一 点 : 


>>> from sklearn.preprocessing import MinMaxScaler 








>>> sms['lda score'] = MinMaxScaler() .fit transform!(\ 

spamminess_ score.reshape(-1,1) 

>>> sms['lda predict'] = (sms.lda score > .5) .astype (int) 

>>> sms['spam lda predict lda score'.split()] .round(2) .head(6) 
spam lda predict lda score 

sms0 0 0 O06 .23 

smsl 0 0 18 

sms2! 1 1 045 7 

sms3 0 0 0 于 8 

sms4 0 0 0.29 

sms5! 于 王 0.55 





上 面 的 结果 看 起 来 不 错 ， 当 将 阐 值 设置 为 50% 时 , 前 6 条 消息 都 被 正确 分 类 。 我 们 接 下 来 看 
看 它 在 训练 集 其 余部 分 的 表现 : 


>>> (1. - (sms.spam - sms.lda predict) .abs().sum() / lenl(sms)).round(3) 
0:977 


这 个 简单 的 模型 对 97.7% 的 消息 进行 了 正确 分 类 。 在 真实 世界 中 ,我 们 不 太 可 能 得 到 这 样 的 
结果 ， 这 是 因为 刚才 我 们 并 没有 分 离 出 一 个 测试 集 。 对 于 这 里 得 到 如 此 高 精度 结果 的 原因 在 于 ， 
我 们 用 于 测试 的 问题 分 类 器 实际 已 经 在 训练 过 程 中 “ 见 过 ”。 但是，LDA 是 一 个 非常 简单 的 模 
型 ， 参 数 很 少 ， 所 以 它 应 该 可 以 很 好 地 泛 化 ， 只 要 这 里 的 短 消息 能 够 代表 将 要 分 类 的 消息 即 可 。 
大 家 可 以 尝试 用 自己 的 例子 来 寻找 答案 。 或者, 一 种 更 好 的 做 法 是 查看 附录 D， 学习 如 何 进行 所 
谓 的 交叉 验证 ( cross validation )。 

这 就 是 语义 分 析 方 法 的 威力 。 与 朴素 贝 叶 斯 或 对 率 回 归 ( logistic regression ) 模型 不 同 ， 语 
义 分 析 并 不 依赖 独立 的 词 。 语 义 分 析 会 聚合 语义 相似 的 词 ( 如 spamminess ) 并 将 它们 一 起 使 用 。 
但 是 请 记 住 ， 这 个 训练 集 只 包含 有 限 的 词汇 表 和 一 些 非 英语 词 。 因 此 ， 如 果 希 望 正确 分 类 ,测试 
消息 也 需要 使 用 相似 的 词 。 

下 面 看 看 训练 集 上 的 混淆 和 矩阵 的 样子 。 它 给 出 了 标注 为 垃圾 但 是 根本 不 是 垃圾 的 消息 〈 假 
阳 )， 也 给 出 了 标注 为 非 垃圾 但 是 本 应 该 标注 为 垃圾 的 消息 〈( 假 阴 )。 


>>> from pugnlp.stats import Confusion 
>>> Confusion(sms['spam lda predict'.split()]) 

















































































































lda predict 0 业 
spam 

0 4135 64 
1 45 593 























中 实际 上 ， 朴 素 贝 叶 斯 和 对 率 回 归 模 型 均 与 这 里 的 简单 LDA 模型 等 价 。 如 果 需 要 ， 可 以 深入 研究 一 下 相 
关 数 学 原理 和 sklearn 代码 。 
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上 面 的 结果 看 起 来 不 错 。 如 果 假 阳 ( 64 ) 或 假 阴 (45 ) 失衡 ,我 们 可 以 调整 0.5 这 个 阔 值 。 
现在 ,我 们 已 经 准备 好 学 习 可 以 计算 多 维 语义 向 量 而 不 仅仅 是 一 维 语义 得 分 的 模型 。 到 目前 为 止 ， 
一 维 向 量 “ 理 解 ”的 唯一 事情 是 词 和 文档 的 垃圾 性 , 我 们 希望 它 能 够 学 习 更 多 的 词 上 的 细微 差别 ， 
并 提供 一 个 多 维 向 量 来 捕捉 词 的 含义 。 

在 深入 研究 SVD (多维 LSA 背后 的 数学 ) 之 前 ,我 们 应 该 先 介绍 一 些 其 他 方法 。 


LSA 的 另 一 位 “ 堂 兄弟 ” 


LSA 还 有 男 一 位 “党 兄弟 ”, 它 有 一 个 类 似 于 LDA 的 缩写 一 一 LDiA。LDiA 代表 Latent Dirichlet 
Allocation ( 潜在 狄 利克 雷 分 布 ) "。LDiA 还 可 以 用 来 生成 捕捉 词 或 文档 语义 的 向 量 。 

LDiA 和 LSA 在 数学 上 并 不 一 样 ,， 它 使 用 非 线性 统计 算法 将 词 分 组 。 因 此 , 它 通 常会 比 线性 
方法 (如 LSA ) 的 训练 时 间 长 很 多 。 这 常常 使 LDiA 在 许多 实际 应 用 中 并 不 实用 ,而且 它 基本 不 
会 是 我 们 要 尝试 的 第 一 种 方法 。 尽管 如 此 , 它 所 创建 的 主题 的 统计 数据 有 时 更 接近 于 人 类 对 词 和 
主题 的 直觉 ， 所 以 LDiA 主题 通常 更 易于 向 上 级 解释 。 

此 外 ，LDiA 对 于 一 些 单 文档 问题 有 用 ， 如 文档 摘要 。 这 时 ， 语 料 库 就 是 单 篇 文档 ， 文 档 的 
句子 就 是 该 “语料库 ”中 的 一 篇 篇 “文档 ”。 这 就 是 gensim 和 其 他 软件 包 使 用 LDiA 来 识别 文 
档 中 最 核心 句子 的 做 法 。 然 后 这 些 句 子 可 以 串 在 一 起 形成 一 篇 由 机 器 生成 的 摘要 ”。 

对 于 大 多 数 分 类 或 回归 问题 , 通常 最 好 使 用 LSA。 因此 , 我 们 首先 解释 潜在 语义 分 析 (LSA ) 
及 其 底层 的 SVD 线性 代数 知识 。 










































































42 潜在 语义 分 析 


潜在 语义 分 析 基 于 最 古老 和 最 常用 的 降 维 技术 一 一 奇异 值 分 解 (SVD )。SVD 其 至 早 在 “机 器 
学 习 ” 这 个 术语 出 现 之 前 就 已 经 广泛 使 用 。SVD 将 一 个 矩阵 分 解 成 3 个 方 阵 ， 其 中 一 个 是 对 角 
和 矩阵 。 

SVD 的 一 个 应 用 是 求 首 矩阵。 一 个 矩阵 可 以 分 解 成 3 个 更 简单 的 方 阵 ， 然 后 对 这 些 方 阵 求 
转 置 后 再 把 它们 相 乘 ， 就 得 到 了 原始 和 矩阵 的 道 矩 阵 。 设 想 一 下 上 述 算法 的 所 有 应 用 ， 它 为 我 们 提 
供 了 一 个 对 大 型 复杂 矩阵 求 道 的 捷径 。SVD 适用 于 梅 架 结构 的 应 力 和 应 变 分 析 等 机 械 工程 问题 ， 
它 对 电气 工程 中 的 电路 分 析 也 很 有 用 , 它 甚 至 在 数据 科学 中 被 用 于 基于 行为 的 推荐 引擎 ， 其 与 基 
于 内 容 的 NLP 推荐 引擎 一 起 运行 。 
利用 SVD，LSA 可 以 将 TF-IDF 词 项 -文档 矩阵 分 解 为 3 个 更 简单 的 和 矩阵。 这 3 个 和 矩阵 可 以 













































































@ 我 们 使 用 了 一 个 非 标准 的 缩写 方式 LDiA 来 和 LDA 进行 区 分 ，LDA 通常 表示 线性 判别 分 析 ， 当 然 并 不 
一 直 是 这 样 。 至 少 在 本 书 中 ,我 们 不 需要 猜测 到 底 是 哪个 算法 : LDA 就 是 线性 判别 分 析 , 而 LDiA 则 代 

表 潜在 狄 利克 雷 分 布 。 

@) 我 们 使 用 了 类 似 的 数学 知识 来 生成 “About the book” 这 一 节 中 的 部 分 文本 , 不 过 我 们 实现 的 是 神经 网 络 
算法 (参考 第 12 章 )。 
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相 乘 得 到 原始 和 矩阵， 得 到 的 原始 矩阵 不 会 有 任何 改变 。 这 就 像 大 整数 因子 分 解 。 让 我 们 为 这 个 发 
现 大 声 欢呼 一 下 ! 但 是 , 经 过 SVD 后 得 到 的 这 3 个 更 简单 的 矩阵 揭示 了 原始 TF-IDF 矩阵 的 一 些 
性 质 , 我 们 可 以 利用 这 些 性 质 来 简化 原始 和 矩阵。 我 们 可 以 在 将 这 些 和 矩阵 相 乘 之 前 对 它们 进行 截断 
处 理 ( 忽 略 一 些 行 和 列 )， 这 将 减少 在 向 量 空间 模型 中 需要 处 理 的 维 数 。 

这 些 截断 的 矩阵 相 乘 并 不 能 得 到 和 原始 TF-IDF 矩阵 完全 一 样 的 矩阵 ， 然 而 它们 却 给 出 了 一 
个 更 好 的 和 矩阵。 文档 的 新 表示 包含 了 这 些 文档 的 本 质 ， 即 隐 性 语义 。 这 就 是 SVD 被 用 于 其 他 领 
域 如 压缩 的 原因 。 它 能 捕捉 数据 集 的 本 质 ， 并 目 忽 略 噪 声 。JPEG 图 像 大 小 是 原始 位 图 的 十 分 之 
一 ， 但 仍然 包含 原始 图 像 的 所 有 信息 。 

当 在 自然 语言 处 理 中 以 这 种 方式 使 用 SVD 时 , 我 们 将 其 称 为 潜在 语义 分 析 (LSA )。LSA 揭 
示 了 被 隐藏 并 等 待 被 发 现 的 词 的 语义 或 意义 。 

潜在 语义 分 析 是 一 种 数学 上 的 技术 ,用 于 寻找 对 任意 一 组 NLP 向 量 进行 最 佳 线性 变换 ( 旋转 和 
拉 伸 ) 的 方法 ， 这 些 NLP 问 量 包括 TF-IDF 向 量 或 词 袋 向 量 。 对 许多 应 用 来 说 ， 最 好 的 变换 方法 是 
将 坐标 轴 ( 维度 ) 对 齐 到 新 向 量 中 ， 使 其 在 词 频 上 具有 最 大 的 散 度 (spread ) 或 方差 (variance ) ”。 
然后 ， 我 们 可 以 在 新 的 向 量 空间 中 去 掉 那 些 对 不 同文 档 向 量 的 方差 贡献 不 大 的 维度 。 

这 种 使 用 SVD 的 方法 称 为 截断 的 奇异 值 分 解 (truncated singular value decomposition ， 和 截断 
的 SVD )。 在 图 像 处 理 和 图 像 压 缩 领 域 ,， 大 家 可 能 听 说 过 这 个 方法 ， 在 那里 叫 作 主 成 分 分 析 
( principal component analysis, PCA )。 另外 , 我 们 会 展示 一 些 有 助 于 提高 LSA 向 量 精确 率 的 技巧 。 
当 我 们 在 其 他 领域 使 用 PCA 处 理 机 器 学 习 和 特征 工程 问题 时 ， 这 些 技巧 也 很 有 用 。 

如 果 大 家 学 过 线性 代数 ， 就 可 能 学 过 LSA 背后 的 代数 称 为 奇异 值 分 解 。 如 果 对 图 像 或 其 他 
高 维 数据 ( 如 时 间 序 列 ) 进行 过 机 器 学 习 ， 那 么 就 可 能 对 这 些 高 维 向 量 使 用 过 PCA。 自 然 语言 
文档 上 的 LSA 等 价 于 TF-IDF 向 量 上 的 PCA。 

LSA 使 用 SVD 查找 导致 数据 中 最 大 方差 的 词 的 组 合 。 我 们 可 以 旋转 TF-IDF 向 量 , 使 旋转 
后 的 向 量 的 新 维度 〈 基 向 量 ) 与 这 些 最 大 方差 方向 保持 一 致 。“ 基 向 量 ” 是 新 问 量 空间 的 坐标 轴 ， 
与 本 章 开始 时 思想 实验 中 的 3 个 六 维 主 题 向 量 类 似 。 每 个 维度 ( 轴 ) 都 变 成 了 词 频 的 组 合 ， 而 不 
是 单个 词 频 ， 因 此 ， 我 们 可 以 把 这 些 维度 看 作 是 构成 语料库 中 各 种 “主题 ”的 词 的 加 权 组 合 。 

机 器 不 能 理解 词 的 组 合 所 表达 的 意义 , 只 能 理解 这 些 词 是 在 一 起 的 。 当 它 看 到 像 “dog”“cat” 
“love” 这 样 的 词 总 是 在 一 起 出 现时 ， 就 会 把 它们 放 到 一 个 主题 中 。 它 并 不 知道 这 样 的 主题 可 能 
是 关于 “pets” 的 。 这 个 主题 可 能 包含 很 多 词 ， 包 括 “domesticated” 和 “feral” 这 种 意义 完全 相 
反 的 词 。 如 果 它 们 经 党 一 起 出 现在 同一 篇 文档 中 ,那么 LSA 会 给 它们 赋予 相同 主题 下 的 高 分 。 
这 取决 于 我 们 人 类 ， 看 看 哪些 词 在 每 个 主题 中 有 很 高 的 权重 ， 并 给 它们 起 个 名 字 。 

但 是 , 我 们 并 不 需要 通过 为 主题 指定 名 字 来 使 用 它们 。 正 如 前 面 章 节 中 我 们 并 没有 分 析 词 干 
还 原 后 的 词 袋 向 量 或 TF-IDF 向 量 中 的 所 有 1000 维 一 样 , 我 们 也 不 必 知 道 所 有 主题 的 含义 。 我 们 
仍然 可 以 用 这 些 新 的 主题 向 量 进行 数学 运算 ， 就 像 在 TF-IDF 向 量 上 做 的 一 样 。 我 们 还 可 以 对 这 


















































































































































































































































QD Jurafsky 和 Martin 的 NLP 教材 第 16 章 给 出 了 一 些 很 好 的 可 视 化 例子 和 相关 解释 。 
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些 主题 向 量 进行 加 减 运算 并 佑 算 文档 之 间 的 相似 度 , 与 以 前 不 同 的 是 , 这 里 是 基于 主题 向 量 而 不 
只 是 词 频 向 量 进行 计算 。 

LSA 提供 了 另外 一 条 有 用 的 信息 。 类似 于 TF-IDF 的 IDF 部 分 , LSA 告诉 我 们 向 量 中 的 哪些 
维度 对 文档 的 语义 (含义 ) 很 重要 。 于 是 ,我 们 可 以 丢弃 文档 之 间 方 差 最 小 的 维度 ( 主题 )。 对 
任何 机 器 学 习 算 法 来 说 , 这 些小 方差 的 主题 通常 是 干扰 因素 与 噪声 。 如 果 每 篇 文档 都 有 大 致 相同 
含量 的 某 个 主题 ， 而 该 主题 却 不 能 帮助 我 们 区 分 这 些 文档 , 那么 就 可 以 删除 这 个 主题 。 这 将 有 助 
于 泛 化 向 量 表示 ， 因 此 当 将 LSA 用 于 流水 线 上 从 没 见 过 的 新 文档 时 ， 即 使 这 篇 文档 来 自 完 全 不 
同 的 上 下 文 ， 它 也 会 工作 得 很 好 。 

LSA 的 这 种 泛 化 和 压缩 实现 了 我 们 在 第 2 章 中 去 掉 停 用 词 时 所 尝试 的 功能 。 但 是 LSA 降 维 
的 结果 要 好 得 多 , 这 是 因为 它 在 某 种 意义 上 是 最 优 的 。 它 会 保留 尽 可 能 多 的 信息 。 它 不 丢弃 任何 
词 ， 而 只 丢弃 某 些 维度 ( 主题 )。 

LSA 将 更 多 的 意义 压缩 到 更 少 的 维度 中 。 我 们 只 需要 保留 高 方差 维度 , 即 语料库 以 各 种 方式 
(高 方差 ) 讨论 的 主要 主题 。 留 下 来 的 每 个 维度 都 成 为 “主题 ”， 包 含 所 有 捕捉 到 的 词 的 某 种 加 权 
组 合 。 


























思想 实验 的 实际 实现 


下 面 从 前 面 提 到 的 思想 实验 出 发 ， 我 们 使 用 一 个 算法 来 计算 一 些 主题 ， 如 “animalness” 
“petness” 和 “cityness”。 我 们 无 法 告知 LSA 算法 想 要 的 主题 到 底 关于 什么 ”， 我 们 只 是 试 一 下 ， 
看 看 会 发 生 什 么 。 对 于 一 个 小 规模 的 短文 档 语料库 ( 如 推 文 、 聊 天 消息 或 几 行 诗歌 )， 只 需要 几 
个 维度 (主题 ) 就 可 以 捕捉 这 些 文档 的 语义 。 具 体 做 法 如 代码 清单 4-2 所 示 。 








代码 清单 4-2 16 个 关于 cat、dog 和 NYC 短 句子 上 的 LSA 主题 - 词 矩 阵 


>>> from nlpia.book.examples.ch04 catdog lsa 3x6x16\ 
a import word topic vectors 
>>> word topic vectors.T.round(1) 
cat dog apple lion nyc love 
top0 -0.6 -0.4 0D -03 0sd S01 
OPL 0 "0:3 Od 0. 0 0.8 
ESGP2: .=0:3. 20:58 = "0-30 (0 


上 述 主题 - 词 矩 阵 中 的 每 列 是 词 的 主题 向 量 或 者 每 个 词 对 应 的 主题 向 量 。 该 向 量 中 的 每 个 元 
素 就 像 在 第 2 章 情 感 分 析 模型 中 所 使 用 的 词 得 分 。 这 些 向 量 可 以 用 来 表示 任何 机 器 学 习 流 水 线 中 
词 的 含义 ,它们 有 时 也 被 称 为 词 的 语义 向 量 。 文 档 中 每 个 词 的 主题 向 量 可 以 相 加 从 而 得 到 该 文档 
的 主题 向 量 。 

令 人 惊讶 的 是 ， 上 述 SVD 创建 的 主题 向 量 类 似 于 在 前 面 的 思想 实验 从 想象 中 提取 出 的 主题 























@ 有 一 个 称 为 “learned metrics”( 习 得 性 度量 指标 ) 的 研究 领域 ， 可 以 用 它 来 引导 想 要 关注 的 主题 。 
Lalit Jain 、Blake Mason 及 Robert Nowak 的 NIPS 论文 “Learning Low-Dimensional Metrics”。 
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向 量 。 这 里 的 第 一 个 主题 标注 为 topic0， 有 点 儿 像 前 面 提 到 的 “cityness” 主 题 。topic0 向 量 
中 apple 和 NYC 的 权重 更 大 。 但 是 topic0 在 这 里 的 LSA 主题 排序 中 排名 第 一 ， 而 在 前 面 想象 
的 主题 中 则 排名 最 后 。LSA 根据 主题 的 重要 度 , 即 它们 所 代表 数据 集 的 信息 量 或 方差 大 小 , 对 主 
题 进行 排序 。topic0 对 应 的 维度 方向 和 数据 集中 方差 最 大 的 轴 保 持 一 致 。 我 们 注意 到 关于 城市 
主题 的 方差 比较 大 ， 有 些 句子 会 使 用 NYC 和 apple， 而 另 一 些 句 子 根 本 不 会 使 用 这 些 词 。 

topicl 看 起 来 和 思想 实验 中 的 所 有 主题 都 不 一 样 。LSA 算法 发 现 , 对 于 要 捕捉 这 篇 文档 本 
质 而 言 , “love” 是 比 “animalness” 更 重要 的 主题 。 最 后 一 个 主题 topic2， 似 乎 是 关于 “dog” 
的 ， 也 混合 了 一 点 儿 “love”。“cat” 这 个 词 被 归 为 “anti-cityness” 主 题 (城市 的 反面 )， 这 是 因 
为 “cat” 和 “city” 并 不 经 党 放 在 一 起 。 

下 面 再 做 一 个 简短 的 思想 实验 ， 应 该 可 以 帮助 大 家 理解 LSA 的 工作 机 理 ， 即 算法 是 如 何在 
不 知道 词 的 含义 的 情况 下 创建 主题 向 量 的 。 


文字 游戏 
对 于 下 面 这 个 语句 ， 大 家 能 从 “awas” 的 上 下 文中 猜 出 这 个 词 的 意思 吗 ? 




























































































Awas! Awas! Tom is behind you! Run! 


大 家 可 能 不 会 猜 到 ,Tom 实际 是 马来西亚 婆罗 洲 李 基 公 园 的 阿尔 法 红 毛 猩猩 。 大 家 可 能 也 不 
知道 Tom 已 经 习惯 了 人 类 ， 但 它 很 有 地 盘 意 识 ， 有 时 会 变 得 极 具 攻击 性 。 人 类 内 在 的 自然 语言 
“处 理 器 ”可 能 没有 时 间 有 意识 地 弄 明白 awas 是 什么 意思 ， 直 到 逃 到 安全 的 地 方 为 止 。 

但 是 , 一 旦 大 家 稳 住 呼吸 , 仔细 想 想 , 可 能 会 猜 到 awas 在 印度 尼 西 亚 语 中 的 意思 是 “danger” 
或 “watch out”( 当心 ) 不 考虑 现实 世界 ， 只 把 注意 力 集中 在 语言 上 下 文 及 词 本 身 ， 我 们 经 常 可 
以 把 所 知道 的 很 多 词 的 意义 或 语义 转移 到 不 知道 的 词 上 。 

大 家 有 空 的 时 候 ， 可 以 自己 或 者 和 朋友 ， 试 着 玩 玩 像 上 面 一 样 的 文字 游戏 ， 将 句子 中 的 某 
个 词 替 换 为 外 来 词 甚至 是 自己 造 的 一 个 词 ， 然 后 让 朋友 猜 猜 这 个 词 的 意思 , 或 者 让 他 们 用 英语 词 
填空 。 通 常情 况 下 ， 你 朋友 的 猜测 结果 不 会 过 于 偏离 该 外 来 词 或 者 编造 词 的 正确 翻译 结果 。 
机 器 ， 从 零 开 始 , 没有 一 种 可 以 基于 的 语言 。 因 此 ,它们 需要 的 不 仅仅 是 一 个 简单 的 例子 而 
是 需要 更 多 信息 来 理解 词 的 意义 。 就 像 大 家 看 到 一 个 充满 外 来 词 的 句子 ， 而 机 器 使 用 LSA 后 可 
以 很 好 地 处 理 这 一 问题 ， 即 使 面 对 的 只 是 随机 提取 的 、 包 含 至 少儿 个 大 家 感 兴趣 的 词 的 文档 。 
大 家 能 看 出 来 , 像 句 子 这 样 较 短 的 文档 比 像 文章 或 书籍 这 样 的 大 型 文档 更 适合 上 述 过 程 吗 ? 
这 是 因为 一 个 词 的 意思 通常 与 包含 它 的 句子 中 的 词 的 意思 紧密 相关 。 但 是 , 对 于 较 长 文档 中 相隔 
很 远 的 词 ， 情 况 并 非 如 此 ”。 

LSA 是 一 种 通过 给 机 器 一 些 样 例 来 训练 机 器 识别 词 和 短语 的 意义 (语义 ) 的 方法 。 和 人 类 一 





































































































































































































@ 详 见 标题 为 “Mad Libs” 的 网 页 。 
@) 当 Tomas Mikolov 开发 Word2vec 时 考虑 到 了 上 述 问 题 , 他 意识 到 如 果 进 一 步 收 紧 上 下 文 ,就 可 以 聚集 
词 向 量 的 含义 ， 于 是 他 把 上 下 文 限 制 在 $ 个 词 以 内 。 
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样 , 机 需 从 词 的 示例 用 法 中 学 习 语 义 要 比 从 字典 定义 中 学 习 更 快 也 更 容易 。 从 示例 用 法 中 提取 词 
的 含义 所 需 的 逻辑 推理 , 要 比 阅读 字典 中 词 的 所 有 可 能 定义 和 形式 然后 将 其 编码 到 某 个 逻辑 中 所 
需 的 逻辑 推理 少 。 
在 LSA 中 提取 出 词 的 含义 的 数学 方法 称 为 奇异 值 分 解 (SVD )。SVD 来 自 线 性 代数 ， 是 LSA 
用 来 创建 类 似 刚才 讨论 的 词 -主题 矩阵 中 的 向 量 的 数学 工具 。 
最 后 ， 我 们 进行 NLP 实战 : 如 何 让 机 器 能 够 通过 玩 文字 游戏 来 理解 词 的 意义 。 




















43 奇异 值 分 解 


奇异 值 分 解 是 LSA 背后 的 算法 。 同 前 面 思想 实验 类 似 ,我 们 从 只 包含 11 篇 文档 、 词 汇 表 大 
小 为 6 的 语料库 开始 ”: 


>>> from nlpia.book.examples.ch04 catdog lsa sorted\ 
import lsa models, prettify tdm 


>>> i 一 lt Si N 
bow_ svd, tfidf svd lsa models () 这 里 使 用 思想 实验 中 的 词汇 表 在 cats_and dogs 语 












































>>> prettify tdm(**bow svd) yk Na eh pls 5 Ep 人 1 
本 2 全 料 库 上 运行 LSA, 很 快 我 们 就 会 在 这 个 黑 盒 子 里 达 
cat dog apple lion nyc love 














人 到 最 高 点 

0 4 让 NYC is the Big Apple. 
1 1 于 NYC is known as the Big Apple. 
2 站 由 I love NYC! 
3 水 二 I wore a hat to the Big Apple party in NYC. 
4 1 1 Come to NYC. See the Big Apple! 
5 1 Manhattan is called the Big Apple. 
6 1 New York is a big city for a small cat. 
粳 再 The lion, a big cat, is the king of the jungle. 
8 1 I love my pet cat. 
9 此 出 I love New York City (NYC) . 
0 是 下 Your dog chased mycat. 





上 面 是 一 个 文档 - 词 项 矩阵 ， 其 中 的 每 一 行 都 是 文档 对 应 的 词 袋 向 量 。 

这 里 我 们 限制 了 词汇 表 的 大 小 以 便 与 前 面 的 思想 实验 保持 一 致 。 同 时 ， 我 们 将 语料库 限制 为 仅 包 
含 11 篇 使 用 了 词汇 表 中 的 6 个 词 的 文档 。 遗憾 的 是 ,排序 算 法 和 大 小 有 限 的 词汇 表 创 建 了 几 个 完全 相 
同 的 词 袋 向 量 (NYC、apple )。 但 是 ，SVD 应 该 能 够 “看 到 ”这 一 点 ， 并 将 主题 分 配给 这 对 词 。 

下 面 将 首先 在 词 项 -文档 矩阵 ( 上述 文档 - 词 项 矩阵 的 转 置 矩阵 ) 上 使 用 SVD, 但 是 SVD 也 
适用 于 TF-IDF 和 矩阵 或 任何 其 他 向 量 空 间 模 型 ; 

>>> tdm = bow svd['tdm"'] 


>>> 七 qm 
0 1 2 3 4 5 6 7 8 3 10 


















































@ 想 了 解 相关 文档 和 上 述 思 想 实验 实现 中 的 向 量 数学 ， 可 以 参考 nlpia/book/examples/ch04_*.py 中 的 例子 。 
这 个 思想 实验 发 生 在 SVD 用 于 实际 自然 语言 语句 之 前 。 幸 运 的 是 ， 所 有 的 主题 完全 类 似 。 

@ 为 保持 印刷 上 的 简洁 ， 这 里 只 选择 了 11 个 短 的 句子 来 做 实验 。 通 过 查看 nlpia 中 的 ch04 示例 并 在 越 来 
越 大 的 语料库 上 运行 SVD， 可 以 学 到 更 多 的 内 容 。 
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Sat 
dog 
apple 
lion 
nyc 
love 


SVD 是 一 种 可 以 将 任何 矩阵 分 解 成 3 个 因子 矩阵 的 算法 ， 而 这 3 个 因子 矩阵 可 以 相 乘 来 重 
建 原始 矩阵 。 这 类 似 于 为 一 个 大 整数 找到 恰好 3 个 整数 因子 , 但 是 这 里 的 因子 不 是 标量 整数 ， 而 
是 具有 特殊 性 质 的 二 维 实 矩阵。 通过 SVD 计算 出 的 3 个 因子 矩阵 具有 一 些 有 用 的 数学 性 质 ， 这 
些 性 质 可 以 用 于 降 维和 LSA。 在 线性 代数 课 上 ， 我 们 可 能 已 经 用 过 SVD 来 求 着 矩阵 。 这 里 ， 我 
们 将 使 用 它 为 LSA 计算 出 主题 (相关 词 的 组 合 )。 

无 论 是 在 基于 词 袋 的 词 项 -文档 矩阵 还 是 基于 TF-IDF 的 词 项 -文档 矩阵 上 运行 SVD,SVD 都 
会 找到 属于 同类 的 词组 合 。SVD 通过 计算 词 项 -文档 矩阵 的 列 ( 词 项 ) 之 间 的 相关 度 来 寻找 那些 
同时 出 现 的 词 "。SVD 能 同时 发 现 文档 间 词 项 使 用 的 相关 性 和 文档 之 间 的 相关 性 。 利 用 这 两 条 信 
息 ，SVD 还 可 以 计算 出 语料库 中 方差 最 大 的 词 项 的 线性 组 合 。 这 些 词 项 频率 的 线性 组 合 将 成 为 
我 们 的 主题 。 我 们 将 只 保留 那些 在 语料库 中 包含 信息 最 多 、 方 差 最 大 的 主题 。SVD 同时 也 提供 
了 词 项 -文档 向 量 的 一 个 线性 变换 ( 旋转 )， 它 可 以 将 每 篇 文档 的 向 量 转换 为 更 短 的 主题 向 量 。 

SVD 将 相关 度 高 ( 因为 它们 经 常 一 起 出 现在 相同 的 文档 中 ) 的 词 项 组 合 在 一 起 ， 同 时 这 一 
组 合 在 一 组 文档 中 出 现 的 差异 很 大 。 我 们 认为 这 些 词 的 线性 组 合 就 是 主题 。 这 些 主题 会 将 词 袋 向 
量 (或 TF-IDF 向 量 ) 转换 为 主题 向 量 ， 这 些 主题 向 量 会 给 出 文档 的 主题 。 主 题 向 量 有 点 儿 像 文 
档 内 容 的 摘要 或 概括 总 结 。 

目前 还 不 清楚 是 谁 提出 了 将 SVD 应 用 于 词 频 来 创建 主题 向 量 的 想法 。 当 初 ， 几 位 语言 学 家 
同时 在 研究 类 似 的 方法 。 他 们 都 发 现 ， 两 个 自然 语言 表达 ( 或 单个 词 ) 之 间 的 语义 相似 度 与 词 或 
表达 被 引用 的 上 下 文 之 间 的 相似 度 成 正比 。 这些 研 究 人 员 包 括 Harris” 、Koll 、Isbell 、Dumais 、 
Salton 和 Lesk 以 及 Deerwester 。 

SVD (LSA 的 核心 ) 用 数学 符号 表示 如 下 : 


W,, SS U.S, VT 


mxp~ pxp pxn 


ee 
和 
i 
ey 
a 
0 
i 
i 
3 








































































































Q@ 这 等 价 于 两 列 ( 词 项 -文档 矩阵 中 的 共 现 向 量 ) 之 间 点 积 的 平方 根 , 但 是 SVD 提供 了 直接 计算 相关 性 所 
不 能 提供 的 额外 信息 。 

@) Jurafsky 和 Schone 在 其 2000 年 的 论文 “Knowledge-Free Induction of Morphology Using Latent Semantic 
Analysis” 及 报告 中 引用 了 Harris, Z. S. 发 表 于 1951 年 的 论文 “Methods in structural linguistics”。 

@ Koll, M. (1979) “Generalized vector spaces model in information retrieval” 和 Koll, M. (1979) “Approach to 
Concept Based Information Retrieval” 。 

由 Charles Lee Isbell, Jr. (1998) “Restructuring Sparse High-Dimensional Data for Effective Retrieval” 。 

@ Dumais et al. (1988) “Using latent semantic analysis to improve access to textual information” 。 

© Salton, G., (1965) “The SMART automatic document retrieval system” 。 

(D Deerwester, S. et al. “Indexing by Latent Semantic Indexing” 。 
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在 上 式 中 , m 为 词汇 表 中 的 词 项 数量 , n 为 语料库 中 的 文档 数量 , p 为 语料库 中 的 主题 数量 。 
我 们 不 是 想得到 更 小 的 维度 吗 ? 我 们 希望 最 终 得 到 比 词 数 更 少 的 主题 , 因此 可 以 使 用 这 些 主题 向 
量 (主题 -文档 矩阵 的 行 ) 作为 原始 TF-IDF 向 量 的 降 维 表示 。 最 终 我 们 会 得 到 这 个 结果 。 但 是 在 
现在 第 一 阶段 ， 我 们 还 是 保留 了 矩阵 中 的 所 有 维度 。 

下 面 几 节 将 给 出 上 述 3 个 矩阵 (U、S 入) 的 形式 。 


4.3.1 左 奇异 向 量 UV 


忆 和 矩阵 包含 词 项 -主题 矩阵 , 它 给 出 词 所 具有 的 上 下 文 信息 。 这 是 NLP 中 最 重要 的 用 于 语 
义 分 析 的 矩阵 。U 矩阵 称 为 “ 左 奇异 向 量 ”"， 因 为 它 包 含 一 系列 行 向 量 ， 这 些 行 向 量 必须 左 乘 
列 向 量 组 成 的 矩阵 ”。 基 于 词 在 同一 文档 中 的 共 现 关系 ，U 给 出 了 词 与 主题 之 间 的 相互 关联 。 
在 截断 (删除 列 ) 之 前 ， 它 是 一 个 方 阵 ， 其 行 数 和 列 数 与 词汇 表 中 的 词 数 (m ) 相同 ， 在 上 例 
中 都 是 6。 如 代码 清单 4-3 所 示 ， 这 里 仍然 得 到 6 个 主题 ( 主题 数目 为 p )， 因 为 我 们 还 没有 截 
类 这 个 矩阵 。 


代码 清单 4-3 Ux 


>>> import numpy as np 
































>>> U, s, Vt = np.linalg.svd (tdm) i 、 二 
>>> import pandas as pd 这 里 重 1 了 前 面 代码 中 
>>> pd.DataFrame (U, index=tdm.index) .round (2) 的 词 项 -文档 矩阵 

0 于 2 总 4 5 


cat =0.041 O83: =0.,.38 =0;:00, ‘011 =0:38 
dog S000. O20 8 S07 S039 002 
apple =0°062 =0521 =0s5L Qa00 -049 7027 
lion,” =0:00". O021 05 二 8 03371, S0539” (052 
nyc -0875 -0..00, 0224 -0..00. -0.52 -0..32 
love -0.22 0.42 0.69 0.00 0.41 0.37 


注意 ，SVD 算法 是 一 个 基本 的 numpy 数学 运算 ， 并 非 一 个 精巧 的 scikit-learn 机 器 学 习 算 法 。 

志和 矩阵 包含 所 有 的 主题 向 量 ， 其 中 每 一 列 主题 向 量 对 应 语料库 中 的 一 个 词 。 这 意味 着 它 可 
以 用 作 一 个 转换 因子 ， 将 词 -文档 向 量 ( TF-IDF 向 量 或 词 袋 向 量 ) 转换 为 主题 -文档 向 量 。 我 
们 只 需 将 U 矩阵 (主题 - 词 矩 阵 ) 乘 以 任何 词 -文档 列 向 量 ， 就 可 以 得 到 一 个 新 的 主题 -文档 向 
量 ,这 是 因为 UU 和 矩阵 中 每 个 元 素 位 置 上 的 权重 或 得 分 ,分 别 代 表 每 个 词 对 每 个 主题 的 重要 程度 。 
这 正 是 我 们 在 前 面 思想 实验 中 所 做 的 事情 ， 也 正 是 这 个 实验 开启 了 在 NYC 的 “cats”“dogs” 
























































@ 如 果 试 图 用 sklearn 中 的 PCA 模型 复 现 这 些 结果 ， 我 们 会 注意 到 它 会 从 号 矩阵 中 获得 这 里 的 词 项 -主题 
和 矩阵, 这 是 因为 输入 数据 集 相 对 于 这 里 的 处 理 进 行 了 转 置 。scikit-learn 总 是 将 数据 作为 行 向 量 进行 排列 ， 
因此 当 使 用 PCA. fit () 或 任何 其 他 sklearn 模型 进行 训练 时 , tam 中 的 词 项 -文档 矩阵 将 被 转 置 为 文档 - 
词 项 矩阵 。 
@) 数学 家 称 这 些 向 量 为 左 特征 向 量 或 行 特 征 向 量 。 参 考 维基 百科 的 文章 “Eigenvalues and eigenvectors”。 
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即使 上 面 已 经 有 了 将 词 频 映射 到 主题 所 需 的 因子 和 矩阵， 我 们 仍 将 解释 SVD 所 提供 的 其 余 因 
子 矩 阵 以 及 如 何 使 用 这 些 和 矩阵 。 


4.3.2 ”奇异 值 向 量 S 


Sigma 或 8 矩阵 是 一 个 对 角 方 阵 ， 其 对 角 线 上 的 元 素 主题 即 “ 奇 异 值 ””。 奇 异 值 给 出 了 在 
新 的 语义 ( 主题 ) 向 量 空间 中 每 个 维度 所 代表 的 信息 量 。 对 角 和 矩阵 只 有 在 从 左上 角 到 右 下 角 的 对 
角 线 上 才 包 含 非 零 值 ， 而 $ 矩阵 的 其 余 元 素 都 是 0。 因 此 ，numpy 通过 以 数组 的 形式 返回 奇异 值 
来 节省 空间 ， 但 是 也 可 以 使 用 numpy .diag 函数 轻松 地 将 其 转换 为 对 角 和 矩阵 ， 如 代码 清单 4-4 
所 示 。 


代码 清单 4-4 Sx 


>>> s.round(1) 
dreay([3: 1 人 25 ) 
>>> S = np.zeros((len(U), len (Vt))) 
>>> pd.np.fill diagonal (S, s) 
>>> pd.DataFrame (S) .round (1) 

0 1 2 3 4 5 6 7 8 9 1 
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同志 矩阵 一 样 ，6 个 词 6 个 主题 的 语料库 的 8 矩阵 有 6 行 (Pp )， 但 是 它 有 很 多 列 (n ) 者 
是 0。 每 篇 文档 都 需要 一 个 列 向 量 来 表示 , 这 样 就 可 以 将 8 乘 以 后 面 马上 要 学 到 的 文档 -文档 抵 
阵 Fr。 因为 目前 还 没有 通过 截断 该 对 角 敌阵 来 降 维 , 所 以 词汇 表 中 的 词 项 数 就 是 主题 数 6CP ): 
这 里 的 维度 ( 主题 ) 是 这 样 构造 的 ; 第 一 个 维度 包含 关于 语料库 的 最 多 信息 ( 前 面 已 解释 的 方 
差 )。 这样， 当 想 要 截断 主题 模型 时 ， 可 以 一 开始 将 右 下 角 的 维度 归 零 ， 然 后 往 左上 角 移 动 。 
当 截断 主题 模型 造成 的 错误 开始 对 整个 NLP 流水 线 错 误 产生 显著 影响 时 ， 就 可 以 停止 将 这 些 
奇异 值 归 零 。 

提示 “这 是 我 们 之 前 提 到 过 的 技巧 。 对 于 NLP 和 大 多 数 其 他 应 用 ， 我 们 不 希望 在 主题 模型 中 保留 

方差 信息 。 将 来 处 理 的 文档 可 能 不 会 与 完全 一 样 的 主题 相关 。 

在 大 多 数 情况 下 ， 最 好 将 8 矩阵 的 对 角 线 元 素 设置 为 1， 从 而 创建 一 个 矩形 单位 年 阵 ， 它 只 
是 重 塑 了 V7" 文 档 -文档 答 阵 ,使 之 兼容 于 叫 词 -主题 矩阵 。 这 样 ， 如 果 将 这 个 $ 矩阵 乘 以 一 些 新 
的 文档 向 量 集 ， 就 不 会 使 主题 向 量 向 原始 主题 组 合 ( 分 布 ) 倾斜。 






































J 数学 家 称 这 些 元 素 为 特征 值 。 
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4.3.3 右 奇 异 向 量 | 


斑 是 一 个 文档 -文档 矩阵 ， 其 中 每 一 列 是 “ 右 奇异 向 量 "。 该 矩阵 将 在 文档 之 间 提 供 共享 语 
义 ， 因 为 它 度量 了 文档 在 新 的 文档 语义 模型 中 使 用 相同 主题 的 频率 。 它 的 行 数 (p ) 和 列 数 与 小 
型 语料库 中 的 文档 数 相同 ， 都 是 11。 具 体 做 法 参见 代码 清单 4-5。 


代码 清单 4-5 VV 


>>> pd.DataFrame (Vt) .round (2) 

0 二 2 3 4 5 6 也 8 9 10 
=0.44 .50.44 =-0231 .044 =0.44 =0..20. -0.01 =0.01 -0.08 -0.31 -=0.01 
-0209 05091 0 19 =0509 =0509 S009 0337 Od 0 D6 OL9 047 
-O06 0 L606 QB2 000.16.m029 -0:22.50532 -710 "O52 -032 

O0000=0..00. 0:.00. "000 "0%00. 000=0500. “07. 000 =0.400.50;71 
=0.04. =0:04 :0a14. :=0#04. =0.04 |'0:.58. "013 =0533 ,0.62 =0..14 :0.33 
=0s09:0209 /0a10 0.09.=0.09 051 03 027 .55001 -04.10 O027 
二 05 Oa2l OL, i033 S03 034 W340%00 -=034 50%23: 0.00 
一 90532= QaE O20 "0630 04d, “00 CO O00 -O00 0 本 85002200 
S050 029" 0 20.. 041 QL6. 0 
-0.1:5: =0 5 =0:89. 015 042 .052041004. =-0<00. =0..04 “063: .=0::00 

0. =0.26 =0.62 .0.33” -0.24: .0 0s09” :0.09.=0.00 -=0.09° .=00523 .=0:.00 


就 像 8 矩阵 一 样 ， 当 把 新 的 词 -文档 向 量 转换 成 主题 向 量 空间 时 ， 可 以 忽略 VV" 和 矩阵。 我 们 
仅仅 使 用 斑 :来 检查 主题 向 量 的 准确 性 ， 以 重建 用 于 “训练 ”该 矩阵 的 原始 词 -文档 向 量 。 




















POO PO 





4.3.4 ”SVD 和 矩 阵 的 方向 


如 果 你 以 前 使 用 自然 语言 文档 进行 过 机 器 学 习 , 那么 可 能 会 注意 到 , 相对 于 在 scikit-learn 和 
其 他 软件 包 中 习惯 看 到 的 内 容 ,， 这 里 的 词 项 -文档 矩阵 是 “翻转 ”( 转 置 ) 的 。 在 第 2 章 末 尾 的 朴 
素 贝 叶 斯 情感 模型 和 第 3 章 的 TF-IDF 向 量 中 , 我 们 将 训练 集 创 建 为 一 个 文档 - 词 项 矩阵 。 这 就 是 
scikit-learn 模型 所 需要 的 方向 。 机 器 学 习 训 练 集 对 应 的 样本 -特征 矩阵 中 的 每 一 行 都 是 一 篇 文档 ， 
而 每 一 列 都 代表 该 文档 的 一 个 词 或 特性 。 但 是 要 直接 进行 SVD 线性 代数 运算 时 ， 和 矩阵 需要 转换 
成 词 项 -文档 格式 。 


重要 说 明 和 矩 阵 的 命名 和 大 小 描述 先 由 行 开 始 ， 然 后 才 是 列 。 因 此 ， 词 项 -文档 矩阵 的 行 代 表 词 ， 列 
代表 文档 。 和 矩阵 的 维 数 ( 大 小 ) 描 述 也 是 如 此 。 一 个 2 x3 矩阵 有 2 行 和 3 列 ,这 意味 着 np.shape () 
的 结果 为 (2，3) ,而 Len() 的 结果 为 2。 


在 训练 机 器 学 习 模型 之 前 , 不 要 忘 了 将 词 项 -文档 矩阵 或 主题 -文档 矩阵 转 回 到 scikit-leam 中 
规定 的 方向 。 在 scikit-learn 中 ，NLP 训练 集中 的 每 一 行 都 应 该 包含 与 文档 ( 电子 邮件 、 短 消息 、 
句子 、 网 页 或 任何 其 他 文本 块 ) 相关 的 特征 向 量 。 在 NLP 训练 集中 ， 向 量 是 行 向 量 。 而 在 传统 






















































































J 实际 上 ,在 skleam 中 ,PCA 模型 并 没有 翻转 文档- 词 项 矩阵 , 只 是 翻转 了 SVD 矩阵 的 数学 运算 。 因 此, scikit-learm 
中 的 PCA 模型 忽略 了 忌 矩 阵 和 43 和 矩阵， 只 使 用 六 矩阵 将 新 的 文档 - 词 项 行 向 量 转 换 为 文档 -主题 行 向 量 。 
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的 线性 代数 运算 中 ， 向 量 通常 被 认为 是 列 向 量 。 

在 下 一 节 中 , 我 们 将 与 大 家 一 起 训练 一 个 scikit-learnTruncatedSVD 转换 器 ,， 它 会 将 词 袋 向 量 
转换 为 主题 -文档 向 量 。 然 后 将 这 些 向 量 转 置 回来 得 到 机 器 学 习 训练 集 的 行 ， 这 样 就 可 以 在 这 些 
文档 -主题 向 量 上 训练 一 个 scikit-learn (sklearn ) 分 类 器 。 

警告 ”如 果 使 用 scikit-learn， 必 须 将 特征 -文档 矩阵 (在 sklearn 中 通常 称 为 义 ) 转 置 ， 以 创建 一 个 

文档 -特征 矩阵 ， 然 后 将 其 传递 到 模型 的 .fit () 和 .predict () 方 法 中 。 训 练 集 矩 阵 中 的 每 一 行者 

应 该 是 特定 样本 文本 ( 通常 是 文档 ) 的 特征 向 量 。 











4.3.5 ”主题 约 简 

现在 我 们 得 到 了 一 个 主题 模型 , 它 可 以 将 词 频 向 量 转 换 为 主题 权重 向 量 。 但 是 因为 主题 数 和 词 数 一 
样 多 ,所 以 得 到 的 向 量 空间 模型 的 维 数 和 原来 的 词 袋 向 量 一 样 多 。 刚 才 我 们 创建 了 一 些 新 闻 并 将 它们 命 
名 为 主题 ， 因 为 它们 以 不 同 的 比例 将 词组 合 在 一 起 。 到 目前 为 止 ， 我 们 还 没有 减少 维 数 。 

这 里 可 以 忽略 8 矩阵， 因为 志和 矩阵 的 行 和 列 已 经 排列 妥当 ， 以 使 最 重要 的 主题 (具有 最 大 的 奇 
异 值 ) 都 在 左边 。 可 以 忽略 5S 的 另 一 个 原因 是 , 将 在 此 模型 中 使 用 的 大 部 分 词 -文档 向 量 ( 如 TF-IDF 
向 量 )， 都 已 经 进行 了 归 一 化 处 理 。 最 后 ， 如 果 这 样 设 置 的 话 ， 它 只 会 生成 更 好 的 主题 模型 。 

因此 ， 我 们 开始 砍 掉 U 右边 的 列 。 但 是 稍 等 一 下 ， 到 底 需 要 多 少 个 主题 才 足 以 捕 提 文档 的 
本 质 呢 ? 度量 LSA 精确 率 的 一 种 方法 是 看 看 从 主题 -文档 矩阵 重 构 词 项 -文档 矩阵 的 精确 率 如 何 。 















































代码 清单 4-6 展示 了 前 面 用 于 演示 SVD 的 9 词 项 11 文档 矩阵 的 重 构 精 确 率 。 
代码 清单 4-6” 词 项 -文档 矩阵 重 构 误 差 





>>> err = [] 
>>> for numdim in range (len(s), 0, -1): 

SInumdim - 1, numdim - 1] = 0 

reconstructed tdm = U.dot(S) .dot (Vt) 

err.append (np.sqrt(((\ 

reconstructed tdm - tdm) .values.flatten() ** 2).sum() 

和 / np.product (tdm. shape))) 
>>> np.array (err) .round (2) 
array( [0006 "0% L207 "0 28 7 039770.55]) 


当 使 用 奇异 向 量 为 11 篇 文档 重 构 词 项 -文档 矩阵 时 ,截断 的 内 容 越 多 , 误差 就 越 大 。 如 果 大 
家 使 用 前 面 的 3 主题 模型 为 每 篇 文档 重 构 词 袋 向 量 , 那么 将 有 大 约 28% 的 均 方 根 误差 。 图 4-3 显 
示 了 随 着 主题 模型 丢弃 的 维度 越 来 越 多 精确 率 不 断 下 降 的 情况 。 

正如 所 看 到 的 那样 ， 无 论 在 模型 中 使 用 TF-IDF 向 量 还 是 词 袋 向 量 ， 精 确 率 下 降 的 趋势 都 非 
常 相似 。 但 是 ， 如 果 计 划 在 模型 中 只 保留 几 个 主题 的 话 ， 使 用 TF-IDF 向 量 的 效果 会 稍 好 一 些 。 

这 只 是 一 个 简单 的 例子 ,但 是 我 们 可 以 看 到 如 何 使 用 这 样 的 图 来 确定 模型 中 到 底 需 要 保留 多 









































Q@ 参考 有 关 LSA 的 scikit-learn 文档 。 
@) Levy、Goldberg 和 Dagan 在 2015 年 发 表 的 “Improving Distributional Similarity with Lessons Learned from 
Word Embeddings” 。 
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少 个 主题 ( 维度 )。 在 茶 些 情况 下 ,在 去 掉 了 词 项 -文档 矩阵 中 的 几 个 维度 之 后 ,我 们 可 能 会 发 现 
获得 了 完美 的 精确 率 ， 大 家 能 猜 到 是 什么 原因 吗 ? 
LSA 模 型 精确 率 





一 词 代词- 文档 焦 阵 
一 TF-IDF 词 项 -文档 从 阵 














重 构 精确 率 
































0 2 3 4 5 6 
去 掉 的 维 数 


图 4-3 ”忽略 的 维度 越 多 ， 词 项 -文档 矩阵 重 构 精 确 率 越 低 

LSA 背后 的 SVD 算法 会 “注意 ”到 某 些 词 总 在 一 起 使 用 ， 并 将 它们 放 在 一 个 主题 中 。 这 就 
是 它 可 以 “无 偿 ” 获 得 几 个 维度 的 原因 。 即 使 不 打算 在 流水 线 中 使 用 主题 模型 ，LSA (SVD ) 也 
可 以 是 为 流水 线 压缩 词 -文档 矩阵 以 及 识别 潜在 复合 词 或 六 gram 的 一 种 好 方法 。 


44 主 成 分 分 析 


当 SVD 用 于 降 维 ( 就 像 之 前 实现 LSA 所 做 的 那样 ) 时 ， 主 成 分 分 析 (PCA ) 是 SVD 的 另 
一 个 叫 法 。scikit-learn 中 的 PCA 模型 对 SVD 做 了 一 些 调整 ， 这 将 提高 NLP 流水 线 的 精确 率 。 

一 方面 ，sklearn.PCA 自动 通过 减 去 平均 词 频 来 “中 心 化 ”数据 。 另 一 方面 ， 其 实现 时 使 用 
了 一 个 更 微妙 的 技巧 ， 即 使 用 一 个 名 为 flip_sign 的 函数 来 确切 地 计算 奇异 向 量 的 符号 。 

最 后 ，skleam 中 的 PCA 实现 了 一 个 可 选 的 “白化 ”( whitening ) 步 又 。 这 类 似 于 在 将 词 -文档 
向 量 转换 为 主题 -文档 向 量 时 忽略 奇异 值 的 技巧 。 与 仅仅 将 8 矩阵 中 所 有 的 奇异 值 设 为 1 不 同 ( 参 
考 4.3.2 节 最 后 一 段 ), 白化 技术 可 以 像 sklearn.StandardScaler 转换 一 样 将 数据 除 以 这 些 方 
差 (方差 归 一 化 处 理 )。 这 有 助 于 分 散 数据 ， 使 任何 优化 算法 都 不 太 可 能 迷失 于 数据 的 U 型 “ 半 
道 ” 或 “河流 ”( 指 局 部 集中 的 数据 ) 中 。 而 当 数据 集中 的 特征 相互 关联 时 ， 这 些 现象 就 会 出 现 。 
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Q@ 在 nlpia.book.examples.ch04_sklearn_pca_source 中 ， 可 以 找到 一 些 使 用 PCA 中 这 些 函 数 的 实验 ， 这 些 实 
验 可 以 用 于 理解 所 有 这 些微 妙 的 技巧 。 
@) 详 见 标题 为 “Deep Learning Tutorial - PCA and Whitening” 的 网 页 。 
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在 将 PCA 应 用 于 真实 世界 中 的 高 维 NLP 数据 之 前 , 我 们 回 过 头 来 看 看 PCA 和 SVD 的 更 可 
视 化 的 表示 ， 这 也 将 有 助 于 我 们 理解 scikit-learn PCA 实现 中 的 API。PCA 对 于 很 多 应 用 都 很 有 
用 ， 所 以 这 种 可 视 化 理解 不 仅仅 对 NLP 有 用 。 在 对 高 维 自 然 语言 数据 进行 尝试 之 前 ， 我 们 将 在 
三 维 的 点 云 上 进行 PCA 处 理 。 

对 于 大 多 数 “ 实 际 ” 问 题 ， 我 们 想 使 用 sklearn.PCA 模型 来 进行 LSA 分 析 。 唯 一 的 例外 是 ， 
要 处 理 的 文档 数 多 于 内 存 中 所 能 容纳 的 文档 数 ， 那 么 在 这 种 情况 下 ， 将 需要 使 用 sklearn 中 的 
IncrementalPCA 模型 ， 或 者 我 们 将 在 第 13 章 中 介绍 的 一 些 缩放 (〈 scaling ) 技术 。 


提示 “如果 有 一 个 巨大 的 语料库 ， 并 且 人 迫切 需要 主题 向 量 (LSA )， 那 么 请 跳 到 第 13 章 ， 查 看 
gensim.models.LsiModel。 如 果 单 台 机 器 还 不 足以 快速 完成 任务 的 话 , 请 查看 SVD 算法 的 RocketML 
并 行 化 版 本 。 

下 面 我 们 将 从 一 组 真实 的 三 维 向 量 而 不 是 超过 10 000 维 的 文档 - 词 向 量 开 始 。 三 维 空间 的 可 
视 化 要 比 10 000 维 容易 得 多 。 因 为 这 里 只 处 理 三 维 数据 ， 所 以 可 以 直接 使 用 Matplotlib 中 的 
Axes3D 类 来 绘制 。 请 参阅 nlpia 包 中 的 代码 ， 以 创建 类 似 这 样 的 可 旋转 三 维 图 。 

事实 上 , 图 4-4 中 的 点 云 来 自 对 真实 物体 表面 的 三 维 扫描 ， 而 不 是 来 自 一 组 词 袋 向 量 箭头 顶 
端 对 应 的 点 。 但 这 将 帮助 我 们 了 解 LSA 的 工作 机 制 。 在 处 理 高 维 向 量 〈 如 文档 - 词 向 量 ) 之 前 ， 
我 们 会 看 到 如 何 操 作 和 绘制 低 维 小 向 量 。 


















































0.06 =015 





图 4-4 ”从 真实 物体 点 云 的 “上 腹 部” 下方 仰望 
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大 家 能 猜 到 构建 出 这 些 三 维 向 量 的 三 维 对 象 是 什么 吗 ? 本 书 上 只 有 一 个 二 维 的 投影 结果 。 大 
家 能 想到 如 何 编程 使 机 避 能 够 旋转 物体 以 便 得 到 更 好 的 视图 吗 ? 有 关 数 据点 的 统计 数据 是 否 可 
以 用 来 优化 x 轴 、y 轴 与 对 象 的 对 齐 ? 当 在 脑海 中 旋转 图 中 的 这 个 三 维 斑点 时 ， 想 象 一 下 ， 此 时 
沿 x、y 和 z 轴 的 方差 会 随 着 旋转 发 生 怎样 的 变化 。 




















4.4.1 三 维 向 量 上 的 PCA 


我 们 手动 将 点 云 旋转 到 这 个 特定 的 方向 , 以 最 小 化 图 中 窗口 轴 上 的 方差 。 我 们 之 所 以 这 样 做 
是 为 了 让 大 家 一 下 子 很 难 认 出 它 的 本 来 面目 。 如 果 SVD (LSA ) 对 文档 - 词 向 量 这 样 做 的 话 ， 它 
将 在 这 些 向 量 中 隐藏 信息 。 在 二 维 投影 中 , 我 们 将 这 些 点 到 加 在 一 起 ,可 以 防止 人 眼 或 机 器 学 习 
算法 将 这 些 点 分 隔 成 有 意义 的 徐 。 但 是 ，SVD 通过 沿 着 高 维 空间 的 低 维 阴影 的 维度 方向 最 大 化 
方差 来 保持 向 量 的 结构 和 信息 内 容 。 这 就 是 机 带 学 习 所 需要 的 , 这 样 每 个 低 维 向 量 就 能 捕捉 到 它 
所 代表 的 东西 的 本 质 。SVD 最 大 化 每 个 轴 上 的 方差 。 而 方差 是 一 个 很 好 的 信息 指标 ,或 者 说 就 
是 要 找 的 本 质 。 





















































>>> import pandas as pd 

>>> pd.set option('display.max columns', 
>>> from sklearn.decomposition import PCA A : Ns 
>>> import seaborn 尽管 在 scikit-learn 中 它 被 称 为 
>>> from matplotlib import pyplot as plt PCA， 但 这 确实 是 SVD 

>>> from nlpia.data.loaders import get data 


确保 pd.DataFrame 能 以 适合 页 
6) 宽 的 方式 打印 输出 








>>> df = get data('pointcloud') .sample(1000) 将 三 维 点 云 缩减 为 二 维 投影 ， 
>>> pca = PCA(n components=2) 以 便 在 二 维 散 点 图 中 显示 
>>> df2d = pd.DataFrame (pca.fit transform(df), columns=list('xy')) 

>>> df2d.plot (kind='scatter', x='x', y='y') 

>>> plt.show() 


如 果 运 行 上 述 脚本 ， 二 维 投影 的 方向 可 能 会 随机 地 从 左 到 右 翻 转 ， 但 它 不 会 扭转 到 新 的 角 
度 。 我 们 计算 二 维 投影 的 方向 ， 使 最 大 的 方差 始终 与 x 轴 第 一 个 轴 ) 对 齐 ， 第 二 大 的 方差 总 
是 与 y 轴 (也 就 是 阴影 或 投影 的 第 二 维 ) 对 齐 。 但 是 ， 这 些 轴 的 极 性 ( 符号 ) 是 任意 的 ， 因 为 
优化 还 剩 有 两 个 自由 度 ， 于 是 可 以 自由 地 沿 着 沿 x 轴 或 ” 轴 或 者 同时 治 着 这 两 个 轴 翻 转向 量 
(点 ) 的 极 性 。 

如 果 想 尝试 一 下 “ 马 ” 的 三 维 方向 ， 可 以 运行 nlpia/data 目录 下 的 horse_plot.py 脚本 。 实 际 
上 ， 可 能 存在 一 种 更 优化 的 数据 转换 方法 ， 它 去 掉 了 一 个 维度 ， 而 不 会 减少 (大 家 眼中 的 ) 该 数 
据 的 信息 内 容 。 上 毕加索 立 体 主义 的 “眼睛 ”可 能 会 提出 一 种 非 线性 变换 ， 它 可 以 同时 从 多 个 角度 
保持 视图 的 信息 内 容 。 有 一 些 诸如 我 们 即将 在 第 6 章 讨 论 的 谍 入 算法 ， 可 以 做 到 上 述 这 一 点 。 

但 是 , 大 家 难道 不 认为 在 保存 点 云 向 量 数据 中 的 信息 方面 , 传统 的 线性 SVD 和 PCA 做 得 很 
好 吗 ? 三 维 马 的 二 维 投影 难道 不 能 提供 很 好 的 数据 视图 吗 ? 机 器 是 否 能 够 从 马 表面 的 三 维 向 量 
计算 出 的 这 些 二 维 向 量 的 统计 数据 中 学 习 到 一 些 东 西 〈 如 图 4-5 所 示 ) 呢 ? 
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4-5” 头 对 头 颠 倒 的 “ 马 ” 点 云 





4.4.2 回归 NLP 


我 们 回 到 NLP, 看 看 SVD 如 何 处 理 一 些 自然 语言 文档 。 在 5000 条 标记 为 垃圾 短 消 ， 
垃圾 短 消息 ) 的 短 消 








筷 (或 非 





息 语 料 中 ， 我 们 使 用 SVD 来 寻找 主 成 分 。 考 虑 到 来 自 大 学 实验 室 的 这 份 短 


消息 语 料 的 词汇 量 和 主题 数 都 有 限 ， 所 以 我 们 把 主题 数 限制 在 16 个 。 我 们 将 同时 使 用 scikit-learn 





PCA 模型 和 截断 的 SVD 模型 来 观察 两 者 是 否 有 所 不 同 。 





截断 的 SVD 模型 被 设计 成 用 于 稀 玖 矩阵 。 稀 政 矩阵 是 存在 很 多 相同 值 ( 通常 为 零 或 NaN ) 元 
素 的 矩阵 。NLP 词 袋 和 TEF-IDF 和 矩阵 几乎 总 是 稀 玖 的 ， 因 为 大 多 数 文 档 不 会 包含 词汇 表 中 的 大 部 分 

















词 。 大 部 分 的 词 频 都 为 0 ( 在 将 “幽灵 ”计数 添加 到 所 有 词 频 以 进行 数据 平滑 之 前 )。 


稀 玻 矩阵 就 像 大 部 分 都 为 空 的 电子 表格 ， 但 是 一 些 有 意义 的 值 分 散在 矩阵 中 。 与 
TruncatedSVD 相 比 ，sklearn PCA 模型 使 用 填充 了 所 有 这 些 零 的 密集 矩阵 ， 可 以 提供 更 快 的 解 


决 方案 。 但 sklearn.PCA 浪费 了 很 多 内 存 来 保存 所 有 那些 0。scikit-learn 中 的 TfidfVect 
输出 稀 跑 和 矩阵 ， 因 此 在 将 结果 与 PCA 进行 比较 之 前 ， 需 要 将 这 些 和 矩阵 转换 为 密集 矩阵 。 
首先 ， 我 们 从 nlpia 包 中 的 DataFrame 加 载 短 消息 : 


>>> import pandas as pd 


from nlpia.data.loaders import get data 
pd.options.display.width 120 


这 有 助 于 宽 Pandas DataFrame 


orizer 


一 





数据 输出 得 更 漂亮 一 些 


>>> sms = get datal('sms-spam') 
>>> index = ['sms{}{}'.format (i, '!'*j) 
= for (i,j]) in zip(range (len(sms)), sms.spam)] 


>>> sms.index 
>>> sms .headq(6) 


spam 
sms0 0 Go 
smsl 0 


我 们 向 短 消息 的 索引 号 后 面 添加 一 个 
感叹 号 ， 以 使 它们 更 容易 被 发 现 


index 





text 


Available only ... 
Joking wif u oni... 


Until JUrony POLnt; Grazy.. 
Ok lars ss 
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sms2! Free entry in 2 a wkly comp to win FA Cup fina... 
sms3 0 U dun say so early hor... U c already then say... 
sms4 0 Nah I don't think he goes to usf, he lives aro... 
sms5! FreeMsg Hey there darling it's been 3 week's n... 





接 下 来 可 以 计算 每 条 消息 的 TF-IDF 向 量 : 


>>> from sklearn.feature extraction.text import TfidfVectorizer 
>>> from nltk.tokenize.casual import casual tokenize 


>>> tfidf = TfidfVectorizer (tokenizer=casual tokenize) 

>>> tfidf docs = tfidf.fit transform(raw documents=sms .text) .toarray () 
>>> len (tfidf.vocabulary_ ) 

9232 














通过 减 去 平均 值 对 向 量化 的 文档 
>>> tfidf docs = pd.DataFrame (tfidf docs) ( 词 袋 向 量 ) 进行 中 心 化 处 理 


>>> tfidf docs = tfidf docs - tfidf docs.mean() 


>>> tfidf docs.shape a 
对 任意 numpy 数组 ，.shape 属 





(4837, 9232) ee 和 
>>> sms.spam.sum!() 性 给 出 的 每 个 维度 的 长 度 











638 Pandas Series 上 的 .sum() 方 法 的 
行为 类 似 于 对 电子 表格 的 列 求 
和 ， 即 将 所 有 元 素 相 加 

至 此 ,我们 有 4837 条 短 消息 ， 其 中 包含 来 自分 词 器 ( casual tokenize ) 的 9232 个 不 同 的 
1-gram 词 条 。 在 4837 条 短 消息 中 ， 只 有 638 条 ( 13% ) 被 标记 为 垃圾 短 消息 。 所 以 这 个 训练 集 不 均 
衡 ， 非 垃圾 短 消息 (正常 的 短 消息 ) 和 垃圾 短 消息 (人们 不 想 要 的 诱惑 和 广告 ) 的 比 大 约 为 8:1。 

针对 这 种 正常 短 消 息 的 抽样 偏差 , 我 们 可 以 通过 减少 任何 对 正常 短 消息 分 类 正确 的 模型 的 “ 回 
报 ” 来 解决 。 但 是 大 型 词汇 表 的 数量 | 严 | 很 难处 理 ， 词 汇 表 中 的 9232 个 词 条 比 要 处 理 的 4837 条 
消息 (样本 ) 还 多 ， 也 就 是 说 ， 词 库 (或 词汇 表 ) 中 包含 的 独立 词 数 ， 比 短 消息 数 还 要 多 。 而 这 
些 短 消息 中 ， 只 有 一 小 部 分 ( 1/8 ) 被 标记 为 垃圾 短 消息 。 这 就 是 造成 过 拟 合 的 原因 。 在 大 型 词 
汇 表 中 ， 只 有 少数 独立 的 词 会 被 标记 为 垃圾 词 。 

过 拟 合 的 意思 是 指 我 们 只 会 在 从 词汇 表 提 取出 几 个 关键 的 词 。 因此 , 垃圾 短 消息 过 滤器 将 依 
赖 这 些 垃圾 词 ,它们 存在 于 那些 过 滤 掉 的 垃圾 短 消息 的 某 处 。 垃圾 消息 散布 者 只 须 使 用 这 些 垃圾 
词 的 同义词 , 就 可 以 很 容易 地 绕 过 过 滤器 。 如 果 词 汇 表 中 没有 包含 这 些 垃圾 消息 散布 者 使 用 的 新 
同义词 ， 那 么 过 滤器 就 会 将 那些 巧妙 构造 的 垃圾 短 消息 误 分 类 为 正常 短 消息 。 

上 述 这 种 过 拟 合 是 自然 语言 处 理 中 的 一 个 固有 问题 。 很 难 找到 一 个 标注 好 的 自然 语言 数据 
集 , 它 包 含 了 人 们 可 能 会 说 的 标注 为 语料库 中 的 所 有 方式 。 我 们 无 法 找到 这 样 一 个 大 规模 的 短 消 
息 数 据 库 , 该 数据 库 包含 了 垃圾 和 非 垃圾 的 所 有 表达 方式 , 而 且 只 有 少数 公司 有 资源 创建 这 样 的 
数据 集 。 所 以 对 我 们 来 说 , 剩 下 的 就 需要 有 针对 过 拟 合 的 应 对 措施 。 我 们 必须 使 用 在 少量 样本 上 
就 可 以 泛 化 得 很 好 的 算法 。 

降 维 是 针对 过 拟 合 的 主要 应 对 措施 。 通 过 将 多 维度 ( 词 ) 合并 到 更 少 的 维度 (主题 ) 中 , 我 
们 的 NLP 流水 线 将 变 得 更 加 通用 。 如 果 降 维 或 缩小 词汇 表 ， 我 们 的 垃圾 短 消 息 过 滤器 将 能 够 处 
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理 更 大 范围 的 短 消息 。 


这 正 是 LSA 所 做 的 习 
词 频 之 间 的 线 必 
大 量 “off ”的 垃圾 消 ) 


























EE 情 ， 它 减少 了 维度 ， 因 此 有 助 于 防止 过 拟 合 (overfitting ) “。 通 过 假设 
E 关 系 ，LSA 可 以 基于 小 数据 集 进 行 泛 化 。 因 此 ， 如 果 词 “half ”出 现在 包含 诸如 
息 中 (如 “Halfoff”),， LSA 帮助 找到 这 些 词 之 间 的 关联 并 得 到 关联 的 程度 ， 


因此 它 将 垃圾 消息 中 的 短语 “half off ”推广 到 诸如 “80% off ”这 样 的 短语 ， 而且， 如果 NLP 数 





据 中 还 存在 “discount” 和 “off ”之 间 的 关联 ， 它 还 可 以 进一步 推广 到 短语 “80% discount”。 
提示 有 些 人 认为 泛 化 是 机 器 学 习 和 人 工 智 能 的 核心 挑战 。 小 样本 学 习 (one-shot learning ) 常 被 用 
来 描述 对 这 类 极致 模型 的 研究 。 这些 模型 需要 的 数据 量 的 数量 级 远 远 低 于 传统 模型 但 是 它们 能 达 
到 与 传统 模型 相同 的 精确 率 。 


泛 化 NLP 流水 线 有 助 于 确保 它 适 月 
定 的 消息 集 。 











4.4.3 基于 PCA 的 短 消 息 语 义 分 析 


下 面 我 们 先 尝试 一 下 scikit-learn 中 的 PCA 模型 。 我 们 已 经 看 到 ， 它 在 实战 当中 已 经 把 三 维 的 
“ 马 ” 变 成 了 二 维 的 “ 笔 ”。 现 在 ， 我 们 把 数据 集 9232 维 的 TF-IDF 向 量 转换 为 16 维 主题 向 量 : 


人 


>>> 

sms0 
smsl 
sms2 
sms3 


sms4 
sms5 


from sklearn.decomposition import PCA 


pca = PCA(n components=16) 
pca = pca.fit (tfidf docs) 
pca topic vectors = pca.transform(tfidf docs) 


columns = 


['topic{}'.format (i) 














日 于 更 广泛 的 现实 世界 的 短 消息 集 ， 而 不 仅仅 是 这 一 组 特 





for i in range (pca.n components)] 


pca topic vectors = pd.DataFrame (pca topic vectors, columns=columns,\ 
index=index) 
pca _ topic vectors.round(3) .head (6) 


topicO0 
0.201 
0.404 

1 -=0:030 
0Q:;329 
0.002 

ly -O00L6 


topicl topic2 a topic13 
Q.:003 Qa037 5 -0.026 
-0.094 -0.078 en =0:036 
-0.048 0.090 Ce =0-z017 
S0033:: -S05035 人 30:0;65 
0...03 0.038 ep 0.031 
0.059 0.014 A 0:077 


topic14 


0 
0 . 
=0.; 
0 . 
-0 . 
9 


019 
047 
045 
022 
081 
015 


toOBLCLs 


0 . 
S08 
0 . 
=0. 
-0 
0 . 


039 
036 
057 
076 
021 
021 


如 果 大 家 对 这 些 主题 感 兴趣 ， 可 以 通过 检查 权重 来 找 出 每 个 词 的 权重 。 通 过 查看 权重 ， 可 以 
看 到 词 half 和 off (如 在 half o 企 中 ) 一 起 出 现 的 频率 ， 然 后 确定 哪个 主题 是 “discount”。 


提示 











通过 检查 .components 属性 ， 可 以 获得 任何 已 经 拟 合 好 的 sklearn 转换 的 权重 。 





首先 ， 我们 将 词 分 配给 PCA 转换 中 的 所 有 维度 。 这 里 需要 将 词 按 正确 的 顺序 排列 ， 因 为 
TFIDFVectorizer 将 词汇 表 存 储 为 字典 ， 并 将 词汇 表 中 的 每 个 词 项 映射 为 索引 号 〈 列 号 ): 





GD 更 多 关 了 





F 过 拟 合 和 泛 化 的 内 容 请 参考 附录 D。 
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>>> tfidf.vocabulary_ 


0 
'until': 8487, 
'jurong': 4675, 
"point 62.965 


>>> column nums, terms = zip(*sorted(zip(tfidf.vocabulary_ .values (),\ 


4.4” 主 成 分 分 析 


tfidf.vocabulary_ .keys()))) 


>>>° ternms 
Cl 
[RL 

7 
5 
'#150°', 


村 























恨 据 词 项 频率 对 词汇 表 进 行 排 


了 。 





左边 元 素 排 序 的 序列 解 ) 























当 于 

















某 个 不 按照 最 
E 并 在 排序 后 重新 压缩 时 ， 这 
里 的 “zip(*sorted(zip()))” 模 式 十 分 有 用 
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现在 ,我 们 可 以 创建 一 个 包含 权重 的 不 错 的 Pandas DataFrame， 所 有 列 和 行 的 标签 都 处 在 正 


确 的 位 置 上 : 


>>> weights = pd.DataFrame (pca.components ， 


= index=['topic{}'.f 


1 m 


topic0 -0.071 0.008 
topicl 0.063 0.008 
OPLC2 QO.071. “QL027 
topEG3. S0059 .0.032 


其 中 ， 有 些 列 ( 词 项 ) 并 不 那么 有 意思 ， 
否 能 找到 那些 “half off ” 词 项 以 及 它们 所 属 的 主题 : 


] 过 


ormat (i) 


# 
=0.004 
0.000 
0.000 
-0.001 

















>>> pd.options.display.max columns 
! ;] :] half off free crazy deal only $ 80 


>>> deals = weights['"' 
round(3) * 100 
>>> deals 





1 7 ) 四 1 一 拉手 交友 
topic0 7 0 05 F050 0 
topicl G3: OO 7.4 0 0 . 
topic2 es 052 0 和 0 . Os 
topic3 003 让 O05 2 ,0% 
topic4 381 SO L225 O10 
tOpLECD S265: Ow , LS O03 0% 
tOBEG6. SL0w9. 0D L959 S04 0 
topic7 二 6 “0% LSL: O80 
topic8 346. ~ 101 S52 S05 0 
topic9 G9.. S03 、 :Ld 4205 


>>> deals.T.sum() 


topic0 二 半生 福光 
topicl Wi 
七 GPLC2 2 
topic3 D3 














止 
地 少 们 





4 
4 
3 
2 
2 
7 
9 
8 
5 
9 


f 


< 5 


8 

2 2d 
aQ02.— "0001. O00L" 0O¢ 
:003: 0001, i0a00L ‘0 
“002 -0.3001 =0:.001 =0. 
-OO0L OmO0L, 11905001 0; 


所 以 下 面 我 们 来 探索 一 下 tfidf.vocabulary， 看 看 是 


columns=terms, 
for I in range(16)]) 
>>> pd.options.display.max columns 
>>> weights.head(4) .round (3) 


crazy 


a TM a Fy 
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2 
001 
001 
001 
001 


dea only 
0 .2 
0 348. 30 
0 0.7 0 

O05 2%53， 浊 
52 200 .7 
302 LB: 0 
03 Ld. 二 0 

QO Sl 
-0.4 3 二 0 
-0.4 32342320 

请 尊重 版 权 
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topic4 3.853 
topic5 T3308 
topic6 4.8 
topic7 93 
topic8 40.5 
topic9 33%5 生 


主题 4、8 和 9 似乎 都 包含 “deal”( 交易 ) 主题 的 正 向 情感 。 而 主题 0、3 和 5 似乎 是 反 deal 
的 主题 ， 即 deal 反面 的 消息 : 负 向 deal。 因 此 ， 与 deal 相关 的 词 可 能 对 一 些 主题 产生 正 向 影响 ， 
而 对 男 一 些 主 题 产 生 负 问 影 响 。 并 不 存在 一 个 明显 的 “deal” 主 题 编号 。 

重要 说 明 casual tokenize 分 词 器 将 "80%" 切 分 成 ["80"m，"%"] ,将 "$80 million" 切 分 

成 ["$","80"m，"million"]。 因 此 ， 除 非 使 用 LSA 或 2-gram 分 词 器 ， 否 则 NLP 流水 线 不 会 注 

意 到 "80%" 和 "$80 million" 之 间 的 差别 ， 它 们 共享 词 条 “80”。 














上 面 对 主 题 的 理解 ， 就 是 LSA 的 挑战 之 一 。LSA 只 允许 词 之 间 的 线性 关系 。 男 外 ， 我 们 通 
常 处 理 的 只 有 小 规模 语料库 。 所 以 LSA 主题 倾向 于 以 人 们 认为 没有 意义 的 方式 将 词组 合 起 来 。 
来 自 不 同 主题 的 几 个 词 将 被 塞 进 单一 维度 〈 主 成 分 ) 中 ， 以 确保 模型 在 使 用 9232 个 词 时 能 够 捕 
捉 到 尽 可 能 多 的 差异 。 












































4.4.4 基于 截断 的 SVD 的 短 消息 语义 分 析 


现在 我 们 可 以 在 scikit-learn 中 试用 一 下 TruncatedSVD 模型 。 这 是 一 种 更 直接 的 LSA 方式 ， 
绕 过 了 scikitlearn PCA 模型 ， 因 此 我 们 可 以 看 到 在 PCA 包装 器 内 部 到 底 发 生 了 什么 。 它 可 以 处 理 
稀 下 矩阵 , 所 以 如 果 我 们 正在 处 理 大 规模 数据 集 , 那么 无 论 如 何 都 要 使 用 TruncateqdSVD 而 非 PCA。 
TruncatedSVD 的 SVD 部 分 将 TF-IDF 矩阵 分 解 为 3 个 矩阵 ， 其 截断 部 分 将 丢弃 包含 TF-IDF 和 矩阵 
最 少 信 息 的 维度 。 这 些 被 丢弃 的 维度 表示 文档 集中 变化 最 小 的 主题 ( 词 的 线性 组 合 )， 它 们 可 能 对 语 

料 库 的 总 体 语义 没有 意义 。 它 们 可 能 会 包含 许多 停 用 词 和 其 他 词 ， 这 些 词 在 所 有 文档 中 均匀 分 布 。 
下 面 将 使 用 TruncateqSVD 仅仅 保留 16 个 最 有 趣 的 主题 , 这些 主题 在 TF-IDF 向 量 中 所 占 
的 方差 最 大 : 




















就 像 在 PCA 中 一 样 , 这 里 将 计算 16 个 主题 , 但 是 人 
将 在 数据 上 和 迭代 100 次 默认 为 5 次 )， 以 确保 这 | 。 全 tanspose 在 一 步 当 让 分 解 
里 的 结果 几乎 与 在 PCA 中 一 样 精确 TF-IDF 向 量 并 将 它们 转换 为 


主题 向 量 
>>> from sklearn.decomposition import TruncatedsVvD 





























>>> svd = TruncatedSsVvD(n components=16, n iter=100) 
>>> svd topic vectors svd.fit transform(tfidf docs.values) 二 一 
>>> svd topic vectors pd.DataFrame (svd topic vectors, columns=columns,\ 





i index=index) 
>>> svd topic vectors.round(3) .head(6) 


topicd. topic teoBic2 ee topBTCL3 :topicl4. topPicls 
sms0 0.201 0.003 0:..037 ee -0.036 -0.014 0:037 
smsl 0.404 -0.094 -0.078 i O02 0.051 -0.042 

















异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 


sms2! 
sms3 
sms4 
sms5! 


-0.030 
0..329 
0.002 

-0.016 


-0.048 


=02033 


0.031 
0.059 


0.090 
=0..035 
0.038 
0.014 
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-0.020 
-0.046 


0 . 
0 . 


034 
075 


9: 

0 
=0; 
0.: 


042 
022 
083 
001 


0:052 


-0.070 
=0.021 


0.020 
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TruncatedSVD 的 这 些 主题 向 量 与 PCA 生成 的 主题 向量 完全 相同 ! 这 个 结果 是 因为 我 们 非 
常 灌 慎 地 使 用 了 很 多 的 迭代 次 数 (n_iter )， 并 且 还 确保 每 个 词 项 〈 列 ) 的 TF-IDF 频率 都 做 了 
基于 零 的 中 心 化 处 理 (通过 减 去 每 个 词 项 上 的 平均 值 )。 

下 面 花 点 儿 时 间 看 看 每 个 主题 的 权重 ,并 试 着 能 够 到 











LE 解 它 们 。 在 既 不 知道 这 些 主题 的 相关 对 











象 也 不 知道 高 权重 词 的 情况 下 , 大 家 认为 自己 能 把 这 6 条 短 消息 判定 为 垃圾 或 非 垃 圾 短 消息 吗 ? 

也 许 看 看 垃圾 短 消 息 行 标签 后 面 的 “!” 标 签 将 有 助 于 上 述 判定 。 这 虽然 很 困难 ， 但 还 是 有 可 能 
的 ， 特 别 是 对 机 器 来 说 ， 它 可 以 查看 所 有 5000 个 训练 样本 ， 计 算出 每 个 主题 的 阔 值 来 分 离 垃圾 
和 非 垃圾 短 消息 的 主题 空间 。 


























4.4.5 基于 LSA 的 垃圾 短 消息 分 类 的 效果 




















要 了 解 向 量 空间 模型 在 分 类 方面 的 效果 如 何 , 一 种 方法 是 查看 类 别 内 部 向 量 之 间 的 余弦 相似 
度 与 它们 的 类 别 归属 之 间 的 关系 。 下 面 , 我 们 看 看 对 应 文档 对 之 间 的 余弦 相似 度 是 否 对 这 里 的 特 
定 二 分 类 问题 有 用 。 我 们 计算 前 6 条 短 消 息 对 应 的 前 6 个 主题 向 量 之 间 的 点 积 ， 
任何 垃圾 短 消息 (“sms2!”) 之 间 的 正 的 余弦 相似 度 〈 点 积 ) 更 大 。 


>>> import numpy as np 


>>> svd topic vectors = 


svd topic vectors, axis=1)).T 


(svd topic vectors.T / np.linal 


>>> svd topic vectors.iloc[:10] 
sms3 


sms0 
smsl 
sms2! 
sms3 
sms4 
sms5! 
sms6 
sms7 
sms8! 
sms9! 


sms0 


a EE A CO 


0 


smsl sms2! 
0.6 0 二 
Is0 02 
Ss022 0 
058 二 0 
0.32 0.1 
0.0 0.4 
0 这 QQ 
0 这 Qs3 
gc 0:5 
Ol 0.4 


发生 让 


6 


sms4 


0s 


-0 


0 . 
=0.; 


业 


0 . 


0 


0 . 
0: 
-0. 


1 


0 


对 每 
行 归 


sms5! 


95 





心口 让 WwW 居 口 





个 主题 向 量 按照 3 




















一 化 ， 然 后 | 











sms6 sms7 
S03 0 
S027 “S02 
0.0 0.3 
SOs “S03 
0 0 .1 
三 由 Qi 二 
a0 Ql 
0.1 20 
S02 051 
=0:2 0.4 


.dot (svd topic vectors.iloc[:10] 


lg.norm(\ 











我 1 


其 长 度 (2 范 数 ) 进 
点 积 计算 余弦 距离 


门 应 该 会 看 到 ， 

















sms8! sms9! 
0..3 =033 
Qs] 二 05 王 
0 0 .4 
30;2 党 0 入 
-0.4 “0: 
0.3 0.4 
0 和 2 02 
0.1 0.4 
1,0 0:.3 
0Q53 .0 


eT) round(1) 


从 上 到 下 读 取 sms0 对 应 的 列 (或 从 左 到 右 读 取 sms0 对 应 的 行 )， 我 们 会 发 现 ，sms0 和 垃圾 
短 消 息 (sms5!、sms6!、sms8!、sms9! ) 之 间 的 余弦 相似 度 是 显著 的 负 值 。sms0 的 主题 向 量 与 垃 
圾 短 消息 的 主题 向 量 有 显著 不 同 ， 非 垃圾 短 消 息 所 谈论 的 内 容 与 垃圾 短 消 息 是 不 同 的 。 





对 sms2! 对 应 的 列 进行 相同 的 处 型 











有 相似 的 语义 ， 它们 谈论 相似 的 “主题 ”。 
这 也 是 语义 搜索 的 工作 原理 。 我 们 可 以 使 用 查询 向 量 和 文档 库 中 所 有 主题 向 量 之 间 的 余弦 相 
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二 少 们 














E， 我 们 会 看 到 它 与 其 他 垃圾 短 消 , 








筷 正 相关 。 垃 圾 短 消息 具 
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似 性 来 查找 其 中 语义 最 相似 的 消息 。 离 该 查询 向 量 最 近 的 文档 ( 最 短 距 离 ) 对 应 的 是 含义 最 接近 
的 文档 。 垃 圾 性 只 是 混入 的 短 消息 主题 中 的 一 种 “意义 ”。 

遗憾 的 是 , 每 个 类 ( 垃圾 短 消息 和 非 垃圾 短 消 息 ) 中 主题 向 量 之 间 的 相似 性 并 没有 针对 所 有 
消息 进行 维护 。 对 这 组 主题 向 量 来 说 , 在 垃圾 短 消息 和 非 垃圾 短 消息 之 间 画 一 条 直线 把 它们 区 分 
开 十 分 困难 。 我 们 很 难 设 定 某 个 与 单个 垃圾 短 消息 之 间 的 相似 度 国 值 ， 以 确保 该 阔 值 始终 能 够 正 
确 地 区 分 垃圾 和 非 垃圾 短 消息 。 但 是 ,一 般 来 说 , 短 消息 的 垃圾 程度 越 低 ， 它 与 数据 集中 另外 的 
垃圾 短 消息 之 间 的 距离 就 越 远 ( 不 太 相 似 )。 如 果 想 使 用 这 些 主题 向 量 构建 垃圾 短 消 息 过 滤器 的 
话 ， 那 么 这 就 是 你 所 需要 的 。 机 器 学 习 算 法 可 以 单独 查看 所 有 垃圾 和 非 垃圾 短 消息 标签 的 主题 ， 
并 可 能 在 垃圾 和 非 垃 圾 短 消息 之 间 绘 制 超 平面 或 其 他 分 界面 。 

在 使 用 截断 的 SVD 时 ， 计 算 主 题 向 量 之 前 应 该 丢弃 特征 值 。scikit-learn 在 实现 TruncatedSVD 
时 采用 了 一 些 技巧 , 使 其 忽略 了 特征 值 ( 图 表 中 的 Sigma 或 8 矩阵) 中 的 尺度 信息 ， 其 方法 是 : 

国 将 TF-IDF 向 量 按 其 长 度 (2 范 数 ) 对 TF-IDF 词 频 进行 归 一 化 ; 

国 通过 减 去 每 个 词 项 ( 词 ) 的 平均 频率 进行 中 心 化 处 理 。 

归 一 化 过 程 消 除了 特征 值 中 的 任何 缩放 或 偏离 ， 并 将 SVD 集中 于 TF-IDF 向 量变 换 的 旋转 部 
分 。 通 过 忽略 特征 值 ( 向量 尺 度 或 长 度 )， 可 以 摆好 对 主题 向 量 空间 进行 限定 的 超 立方 体 ， 这 人 允 
许 我 们 对 模型 中 的 所 有 主题 一 视 同 仁 。 如 果 想 在 自己 的 SVD 实现 中 使 用 该 技巧 ， 那 么 可 以 在 计 
算 SVD 或 截断 的 SVD 之 前 ， 按 2 范 数 对 所 有 TF-IDF 向 量 进行 归 一 化 ， 在 PCA 的 scikit-learn 
实现 中 ， 可 以 通过 对 数据 进行 中 心 化 和 白化 处 理 来 实现 这 一 点 。 

如 果 没 有 这 种 归 一 化 ， 出 现 不 频繁 的 主题 会 获得 比 它们 应 该 获得 的 稍微 多 一 点 的 权重 。 由 于 垃 
圾 性 是 一 个 罕见 的 主题 ， 只 在 13% 的 时 间 发 生 ， 通 过 上 述 归 一 化 或 者 丢弃 特征 值 的 做 法 ， 有 关 它 的 
主题 将 被 赋予 更 大 的 权重 。 通 过 采用 这 种 方法 ， 生 成 的 主题 与 细微 的 特性 ( 如 垃圾 性 ) 更 相关 。 


提示 无 论 使 用 哪 种 算法 或 具体 实现 来 进行 语义 分 析 (LSA、PCA、SVD 、 截 断 的 SVD 或 LDiA )， 
都 应 该 首先 对 词 袋 向 量 或 TF-IDF 向 量 进行 归 一 化 。 否则， 可 能 会 在 主题 之 间 产 生 巨 大 的 尺度 差异 。 
主题 之 间 的 尺度 差异 会 降低 模型 区 分 细微 的 、 出 现 不 频繁 的 主题 的 能 力 。 上 述 问 题 的 另 一 种 考虑 思 
路 是 ， 尺 度 差异 可 以 在 目标 函数 的 等 高 线 图 中 创建 深 “峡谷 ”和 “河流 ”"， 这 使 得 其 他 机 器 学 习 算 
法 很 难 在 这 个 粗糙 的 地 形 中 为 主题 找到 最 佳 国 值 。 



















































































































































































LSA 和 SVD 的 增强 


SVD 在 语义 分 析 和 降 维 方面 的 成 功 ， 促 使 研究 者 对 其 进行 扩展 和 增强 。 这 些 增强 主要 针对 非 
NLP 问题 ， 我 们 在 这 里 稍微 提 一 下 ， 以 防 以 后 会 遇 到 它们 。 它 们 有 时 与 基于 NLP 内 容 的 推荐 引擎 
一 起 用 于 基于 行为 的 推荐 引 警 。 它 们 被 用 于 自然 语言 词性 统计 "。 任 何 和 矩阵 分 解 或 降 维 方法 都 可 以 
用 于 处 理 自然 语言 的 词 项 频率 。 因 此 ， 在 大 家 的 语义 分 析 流 水 线 中 也 可 以 找到 下 列 方法 的 用 途 : 




















人 参考 S. Feldman、M. A. Marin 、M. Ostendorf 及 M. R. Gupta 的 论文 “Part-of-speech Histograms for Genre 
Classification of Text” 。 
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加 二 次 判别 分 析 (quadratic discriminant analysis，QDA ); 

加 ”随机 投影 (random projection ); 

国 非 负 符 阵 分 解 (nonnegative matrix factorization，NMEF )。 

QDA 是 LDA 的 一 种 奉 代 方 法 。QDA 创建 的 是 二 次 多 项 式 变换 ， 而 不 是 线性 变换 。 这 些 变 
换 定义 了 一 个 可 以 用 于 区 分 类 的 向 量 空 间 。QDA 向 量 空间 中 的 类 之 间 的 边界 是 二 次 曲面 ， 就 像 
硕 、 球 或 半 管 一 样 。 

随机 投影 是 一 种 与 SVD 类 似 的 和 矩阵 分 解 和 变换 方法 ,但 其 算法 是 随机 的 ， 因 此 每 次 运行 得 
到 的 结果 都 不 一 样 。 但 是 这 种 随机 性 使 它 更 容易 在 并 行 机 器 上 运行 。 在 某 些 情况 下 ( 对 于 某 些 随 
机 运行 )， 可 以 得 到 比 从 SVD (和 LSA ) 得 到 的 更 好 的 变换 。 然 而 ， 随 机 投影 很 少 用 于 NLP 问 
题 ， 在 Spacy 或 NLIK 等 NLP 包 中 也 没有 得 到 广泛 的 实现 。 如 果 大 家 认为 它 可 能 适用 于 你 自己 
的 问题 ， 我 们 将 把 随机 投影 方法 留 给 大 家 进一步 研究 探索 。 

在 大 多 数 情况 下 ， 大 家 最 好 坚持 使 用 LSA， 它 在 底层 使 用 了 经 过 验证 的 SVD 算法 。 
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本 章 的 大 部 分 时 间 里 我 们 都 在 讨论 LSA， 以 及 基于 scikit-learn 甚至 简单 的 numpy 的 各 种 实现 
方法 。 对 大 多 数 主题 建 模 、 语 义 搜 索 或 基于 内 容 的 推荐 引擎 来 说 ，LSA 应 该 是 我 们 的 首选 方法 ”。 
它 的 数学 机 理 直 观 、 有 效 ， 它 会 产生 一 个 线性 变换 ,可 以 应 用 于 新 来 的 自然 语言 文本 而 不 需要 训 
练 过 程 ， 并 几乎 不 会 损失 精确 率 。 但 是 ， 在 某 些 情况 下 ，LDiA 可 以 给 出 稍 好 的 结果 。 

LDiA 和 前 面 LSA (以 及 底层 的 SVD ) 一 样 做 了 很 多 创建 主题 模型 的 工作 ， 但 是 与 LSA 不 
同 的 是 ，LDiA 假设 词 频 满足 狄 利克 雷 分 布 。 相 对 于 LSA 的 线性 数学 ，LDiA 则 更 精确 地 给 出 了 
将 词 赋 给 主题 的 统计 信息 。 

LDiA 创建 了 一 个 语义 向 量 空间 模型 ( 就 像 前 面 的 主题 向 量 ), 使 用 的 方法 类 似 于 在 本 章 前 面 
的 思想 实验 中 我 们 大 脑 的 工作 方式 。 在 思想 实验 中 , 我 们 根据 词 在 同一 文档 中 的 共 现 频率 手动 地 
将 它们 分 配给 主题 。 然 后 , 文档 的 主题 混合 可 以 由 每 个 主题 中 的 词 的 混合 结果 来 确定 ， 而 这 些 词 
被 分 配 到 每 个 主题 中 。 这 使 得 LDiA 主题 模型 更 容易 理解 ， 因 为 分 配给 主题 的 词 以 及 分 配给 文档 
的 主题 往往 比 LSA 更 有 意义 。 

LDiA 假设 每 篇 文档 都 由 某 个 任意 数量 的 主题 混合 (线性 组 合 ) 而 成 ， 该 数量 是 在 开始 训练 
LDiA 模型 时 选择 的 。LDiA 还 假设 每 个 主题 都 可 以 用 词 的 分 布 ( 词 项 频率 ) 来 表示 。 文档 中 每 个 
主题 的 概率 或 权重 , 以 及 某 个 词 被 分 配 到 一 个 主题 的 概率 , 都 假定 一 开始 满足 狄 利克 雷 概率 分 布 
( 如 果 还 记得 统计 学 ， 则 应 该 知道 这 个 概率 称 为 先 验 )。 这 就 是 该 算法 得 名 的 来 历 。 





































































































Q@ SVD 方法 传统 上 用 于 求解 非 方 阵 的 伪 逆 和 矩阵， 大 家 可 以 想象 一 下 矩阵 求 送 有 多 少 种 应 用 。 

@) Sonia Bergamaschi 和 Laura Po 在 2015 年 对 基于 内 容 的 电影 推荐 算法 的 比较 中 发 现 LSA 约 是 LDiA 精度 的 
两 倍 ， 参 见 他 们 所 著 的 “Comparing LDA and LSA Topic Models for Content-Based Movie Recommendation 
Systems”。 
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4.5.1 LDiA 思想 


LDiA 是 几 个 英国 遗传 学 家 于 2000 年 开发 出 来 的 算法 ,目的 是 帮助 他 们 从 基因 序列 推断 种 群 
结构 。 斯 坦 福 大 学 的 研究 人 员 ( 包括 Andrew Ng ) 2003 年 在 NLP 中 对 该 方法 进行 了 推广 。 但 是 ， 
不 要 被 提出 这 种 方法 的 大 牌 人 物 所 吓 倒 , 我们 很 快 将 用 Python 的 几 行 代码 来 简要 解释 它 的 要 点 。 
我 们 只 需要 充分 理解 它 , 以 便 对 它 能 做 的 事情 有 直观 的 感受 , 这 样 就 可 以 知道 在 流水 线 中 如 何 使 
用 它 。 

Blei 和 Ng 通过 掷 贷 子 来 实现 前 面 的 思想 实验 从 而 提出 了 这 个 想法 。 他 们 设想 ， 一 台 只 能 拼 
货 子 (生成 随机 数字 ) 的 机 器 如 何 能 写 出 语料库 中 的 文档 。 当 然 , 由 于 我 们 仅 基 于 词 袋 进行 处 理 ， 
因此 在 编写 一 篇 真正 的 文档 时 , 他们 去 掉 了 词 序 对 文档 语义 的 影响 。 他 们 只 对 词 的 混合 统计 数据 
进行 建 模 ， 而 这 些 词 混合 构成 了 每 篇 文档 的 词 袋 。 

他 们 设想 有 一 台 机 器 , 该 机 器 只 有 两 个 选择 项 来 开始 生成 特定 文档 的 词 混 合 结果 。 他们 设想 
文档 生成 器 会 以 某 种 概率 分 布 来 随机 选择 这 些 词 ,就 像 选 择 山 子 的 边 数 然后 将 角子 的 组 合 情 况 加 
在 一 起 创建 一 个 D&D 人 物 卡 ”。 我 们 的 文档 “人 物 卡 ”只 需要 货 子 的 两 轮 投 掷 过 程 。 但 是 货 子 
本 身 很 大 ， 而 且 有 好 几 个 ， 关 于 如 何 组 合 它们 来 为 不 同 的 值 生成 所 需 的 概率 ， 有 十 分 复杂 的 规则 。 
我 们 希望 词 的 数量 和 主题 的 数量 有 特定 的 概率 分 布 , 这 样 它们 就 可 以 匹配 竺 分析 的 真实 文档 中 的 
词 和 主题 的 分 布 。 

货 子 的 两 轮 投 掷 过 程 分 别 代表 : 

(1 ) 生成 文档 的 词 的 数量 ( 泊 松 分 布 ) 

(2 ) 文档 中 混合 的 主题 的 数量 ( 狄 利克 雷 分 布 ) 

有 了 上 面 两 个 数值 之 后 ， 就 会 遇 到 较 难 的 部 分 ,也 就 是 要 为 文档 选择 词 。 设 想 的 词 袋 生 成 机 
会 在 这 些 主题 上 人 迭代, 并 随机 选择 适合 该 主题 的 词 , 直到 达到 文档 应 该 包含 的 词 数量 ( 见 步骤 1 ) 
为 止 。 确 定 这 些 词 对 应 主题 的 概率 ( 每 个 主题 的 词 的 适宜 度 ) 是 比较 困难 的 。 但 是 一 旦 确定 ,“ 机 
器 人 ”就 会 从 一 个 词 项 -主题 概率 矩阵 中 查找 每 个 主题 的 词 的 概率 。 如 果 大 家 忘 了 这 个 矩阵 的 样 
子 ， 请 回顾 本 章 前 面 的 简单 示例 。 

因此 , 这 台 机 器 只 需要 一 个 泊 松 分 布 的 参数 ( 在 步骤 1 的 骨 子 投掷 中 ) 来 告诉 它 文档 的 平均 
长 度 应 该 有 多 长 ， 以 及 两 个 另外 的 参数 来 定义 设置 主题 数 的 狄 利克 雷 分 布 。 然 后 , 文档 生成 算法 
需要 文档 喜欢 使 用 的 所 有 词 和 主题 组 成 的 词 项 -主题 矩阵 ， 并 且 ， 它 还 需要 喜欢 谈论 的 一 个 主题 
混合 。 

下 面 我 们 将 文档 生成 (编写 ) 问题 转 回 到 最 初 的 问题 ， 即 从 现 有 文档 中 估算 主题 和 词 。 我 们 
需要 为 前 两 个 步骤 测算 或 计算 关于 词 和 主题 的 那些 参数 。 然 后 需要 从 一 组 文档 中 计算 出 词 项 - 主 















































































































































人 参考 Jonathan K. Pritchard 、Matthew Stephens 和 Peter Donnelly 的 论文 “Inference of Population Structure 
Using Multilocus Genotype Data 。 

@ D&D 指 的 是 “Dungeons & Dragons”"， 即 《 龙 与 地 下 城 》 这 是 一 款 奇 幻 背 景 的 角色 扮演 游戏 ， 并 有 旦 是 世界 
上 第 一 个 商业 化 的 桌 上 角色 扮演 游戏 。 游 戏 中 有 人 物 扮演 角色 的 人 物 卡 。 译 者 注 
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题 矩 阵 。 这 就 是 LDiA 所 做 的 事情 。 

Blei 和 Ng 意识 到 ， 他 们 可 以 通过 分 析 语 料 库 中 文档 的 统计 数据 来 确定 步骤 1 和 步 又 2 的 参 
数 。 例 如, 对 于 步骤 1, 他 们 可 以 计算 出 语料库 中 文档 的 所 有 词 袋 中 的 平均 词 (或 n-gram ) 数量 ， 
就 像 下 面 这 样 : 


>>> total corpus len = 0 
>>> for document text in sms.text: 
total corpus len += len(casual tokenize (document text)) 
>>> mean document len = total corpus len / len(sms) 
>>> round (mean document len, 2) 
215.35 


或 者 ， 通 过 下 面 一 行 代 码 来 求解 : 


>>> sum([len(casual tokenize(t)) for t in sms.text]) * 1. / lenl(sms.text) 
21.35 


请 记 住 , 大 家 应 该 直接 从 词 袋 来 计算 这 个 统计 数据 。 我 们 需要 确保 正在 对 文档 中 的 已 分 词 和 
已 向 量化 (已 经 counter () 过 ) 的 词 计 数 ， 并 确保 在 对 独立 词 项 进行 计数 之 前 ， 已 应 用 任 一 停 
用 词 过 滤器 或 其 他 归 一 化 方法 。 这 样 的 话 ， 我 们 的 计数 就 不 仅 包括 词 袋 向 量词 汇 表 中 的 所 有 词 ( 正 
在 计数 的 所 有 n-gram )， 而 且 包 括 词 袋 使 用 的 那些 词 (如 非 停 用 词 )。 与 本 章 的 其 他 算法 一 样 ， 
LDiA 算法 也 依赖 一 个 词 袋 向 量 空间 模型 。 

设 定 LDiA 模型 所 需要 的 第 二 个 参数 即 主题 的 数量 更 加 环 手 。 在 一 组 特定 的 文档 中 ， 只 有 在 
为 这 些 主题 分 配 了 词 之 后 , 才能 直接 得 到 主题 的 数量 。 就 像 KNN 、k 均 值 以 及 其 他 的 聚 类 算法 一 
样 ， 我 们 必须 提前 设 定 的 值 。 我 们 可 以 猜测 主题 的 数量 (类似 于 均值 中 的 x， 即 簇 的 数量 )， 
然后 检查 这 是 否 适用 于 这 组 文档 。 一 旦 设 定好 LDiA 要 寻找 的 主题 数量 ， 它 就 会 找到 要 放 和 每 个 

主题 中 的 词 的 混合 结果 ， 从 而 优化 其 目标 函数 。 

我 们 可 以 通过 调整 这 个 “ 超 参数 ”( kx， 即 主题 的 数量 ) “来 对 其 进行 优化 ， 直 到 它 适 合 我 们 的 应 用 
为 止 。 如 果 能 够 度量 表示 文档 含义 的 LDiA 语言 模型 的 质量 ， 就 可 以 可 以 用 于 此 
优化 的 一 个 代价 函数 (cost function ) 是 ，LDiA 模型 在 某 些 分 类 或 回归 问题 (如 情绪 分 析 、 文 档 关 键 词 
标注 或 主题 分 析 ) 中 的 表现 如 何 (好 或 差 ) 我 们 只 需要 一 些 带 标签 的 文档 来 测试 主题 模型 或 分 类 器 。 
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4.5.2 基于 LDiA 主题 模型 的 短 消息 语义 分 析 
LDiA 生成 的 主题 对 人 类 来 说 更 容易 理解 和 解释 。 这 是 因为 经 常 一 起 出 现 的 词 被 分 配给 相同 











Q@ 有 关 LDiA 目标 函数 的 详细 信息 ， 请 参阅 Matthew D. Hoffman、David M. Blei 和 Francis Bach 所 著 的 论 
文 “Online Learning for Latent Dirichlet Allocation” 。 

@ Blei 和 Ng 使 用 的 这 个 参数 的 符号 是 theta 而 不 是 k。 

@) 克 雷 格 : 鲍 曼 ( Craig Bowman ) 是 俄 交 俄 州 迈 阿 密 大 学 ( University of Miami ) 的 一 名 图 书 管 理 员 ， 他 正 

在 使 用 美国 国会 图 书馆 ( Library of Congress ) 的 分 类 系统 作为 古 腾 保 计划 ( Gutenberg Project ) 图 书 的 

主题 标签 。 到 目前 为 止 ， 这 肯定 是 我 遇 到 过 的 最 雄心 勃勃 、 最 亲 社 会 的 开放 科学 NLP 项 目 。 
























































异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 











122 第 4 章 ， 词 频 背 后 的 语义 

















的 主题 ， 而 人 类 的 期 望 也 是 如 此 。LSA (PCA ) 试图 将 原本 分 散 的 东西 分 散 开 来 ， 而 LDiA 则 试 
图 将 原本 接近 的 东西 接近 在 一 起 。 

这 听 起 来 好 像 是 一 回 事 , 但 事实 并 非 如 此 。 其 背后 的 数学 在 优化 不 同 的 东西 ,优化 器 有 不 同 
的 目标 函数 , 因此 它 将 达到 一 个 不 同 的 目标 。 为 了 让 接近 的 高 维 空间 向 量 在 低 维 空间 中 继续 保持 
接近 , LDiA 必须 以 非 线性 的 方式 变换 (扭转 和 扭曲 ) 空间 (和 癌 量 )。 这 种 过 程 很 难 实现 可 视 化 ， 
除非 在 某 个 三 维 空间 上 执行 上 述 操作 并 将 结果 向 量 投影 到 二 维 空间 。 

如 果 想 帮助 其 他 人 并 在 此 过 程 中 学 习 一 些 东 西 , 请 向 nlpia 中 的 horse 示例 (src/nlpia/book/ 
examples/ch04_horse.py ) 提交 一 些 额 外 的 代码 。 我 们 可 以 为 horse 中 的 数 千 个 点 创建 词 -文档 向 量 ， 
方法 是 将 它们 转换 为 词 x、y 和 z( 即 三 维 向 量 空间 的 维 数 ) 上 的 整数 计数 结果 。 然 后 ,可 以 从 这 
些 计 数 生 成 人 造 文档 ， 并 将 它们 传递 给 本 章 前 面 所 有 的 LDiA 和 LSA 示例 。 然 后 ， 我 们 就 可 以 
直接 实现 上 述 每 一 种 方法 产生 马 的 不 同 的 二 维 “ 影 子 ”( 投影 ) 的 过 程 的 可 视 化 。 

下 面 我 们 来 看 看 ， 对 于 一 个 包含 数 千 条 短 消息 的 数据 集 ( 按照 是 否 垃 圾 来 标记 ) 上 述 方法 的 
应 用 过 程 。 首 先 计 算 TF-IDF 向 量 , 然后 为 每 个 短 消息 (文档 ) 计算 一 些 主题 向 量 。 和 以 前 一 样 ， 
我 们 假设 只 使 用 16 个 主题 (成 分 ) 来 对 垃圾 消息 进行 分 类 。 保 持 主 题 ( 维度 ) 的 数量 较 低 有 助 
于 减少 过 拟 合 的 可 能 性 。 

LDiA 使 用 原始 词 袋 词 频 向 量 ， 而 不 是 归 一 化 的 TF-IDF 向 量 。 这 里 有 一 个 简单 的 方法 在 
scikit-learn 中 计算 词 袋 向 量 : 


>>> from sklearn.feature extraction.text import CountVectorizer 
>>> from nltk.tokenize import casual tokenize 
>>> np.random.seed (42) 










































































>>> counter = CountVectorizer (tokenizer=casual tokenize) 

>>> bow docs = pd.DataFrame (counter.fit transform(raw documents=sms.text)\ 
a .toarray(), index=index) 

>>> column nums, terms = zip(*sorted(zip(counter.vocabulary _ .values (),\ 

3 Counter .vocabulary .keys ()))) 

>>> bow docs.columns = terms 


我 们 再 次 检查 一 下 ， 看 看 这 里 的 词 频 是 否 对 标记 为 “sms0” 的 第 一 条 短 消息 有 意义 : 


>>> sms.loc['sms0'] .text 
"Go until jurong point, crazy.. Available only in bugis n great world la e 








buffet... Cine there got amore wat...' 

>>> bow docs.loc['sms0'] [bow docs.loc['sms0'] > 0] .head() 
1 

ee 2 

amore 中 

available 1 


Name: sms0, dtype: int64 


下 面 给 出 了 如 何 使 用 LDiA 为 短 消息 语料库 创建 主题 向 量 的 过 程 : 








Q 更 多 关于 过 拟 合 的 不 良 后 果 ， 以 及 泛 化 如 何 有 助 于 解决 这 个 问题 的 信息 ， 参 见 附录 D。 
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>>> from sklearn.decomposition import LatentDirichletAllocation as LDiA 


>>> ldia = LDiA(n components=16, learning method='batch') 


> = 好 本 Ee 2 
Woe “| LDiA 要 比 PCA 或 SVD 花费 更 长 的 时 间 ,特别 是 在 


>>> 1dqia.components .shape JE i 
(16, 9232) 语料库 包含 大 量 主题 和 大 量词 的 情况 下 更 是 如 此 











因此 ， 上 述 模型 已 经 将 9232 个 词 ( 词 项 ) 分 配给 16 个 主题 (成 分 )。 下 面 来 看 看 开头 的 几 








个 词 ， 我 们 了 解 一 下 它们 是 如 何 分 配 到 16 个 主题 中 的 。 记 住 ， 大 家 的 词 和 主题 将 不 同 于 这 里 的 
例子 。LDiA 是 一 种 随机 算法 ， 它 依赖 随机 数 生 成 器 做 出 一 些 统计 决策 来 为 主题 分 配 词 。 因 此 ， 
大 家 自己 的 主题 词 权重 将 不 同 于 上 面 给 出 的 结果 ， 但 它们 应 该 大 小 类 似 。 每 次 运行 sklearn. 
LatentDirichletAllocation (或 任何 LDiA 算法 )， 如 果 随 机 种 子 没 有 设 定 为 固定 值 ， 我 
们 将 获得 不 一 样 的 结果 : 














>>> pd.set option('display.width', 75) 

>>> components = pd.DataFrame (ldia.components_.T, index=terms,\ 
columns=columns) 

>>> components.round(2) .head (3) 


toBicd ‘topicl .tOBic2 5 topicl3 .topicl4. topicls 
! 184.03 L500 下 多 二 包公 a 入 97329 41.16 0 
0.68 人 2222 2.41 G62 T2227 0.06 
# 0.06 0.06 0.06 4.05 0.06 0506 


因此 ， 感叹 号 (1! ) 被 分 配 到 大 多 数 主题 中 ,但 它 其 实 是 topic3 中 一 个 特别 重要 的 部 分 ， 


在 该 主题 中 引号 (" ) 几乎 不 起 作用 。 或 许 “topic3” 关 注 情 感 的 强度 或 强调 ， 并 不 太 在 意 数 值 或 
引用 。 我 们 来 看 看 : 


类 型 


可 以 


看 ， 


>>> components.topic3.sort values (ascending=False)[:10] 


394.952246 
218.049724 
to 直下 罗 %53 写 34 
U 118.857546 
call 111.948541 
£ 107.358914 
人 96.954384 
娄 90.314783 
your 90.215961 
is X55750037 





因此 , 该 主题 的 前 十 个 词 条 似乎 是 在 要 求 某 人 做 某 事 或 支付 某 事 的 强调 指令 中 可 能 使 用 的 词 
。 如 果 这 个 主题 更 多 使 用 在 垃圾 消息 而 不 是 非 垃 圾 消息 的 话 , 那么 上 述 发 现 十 分 有 趣 。 我 们 
看 到 ， 即 使 这 样 粗略 浏览 一 下 ， 也 可 以 对 主题 的 词 分 配 进行 合理 化 解释 或 推理 。 
在 拟 合 LDA 分 类 器 之 前 ， 需 要 为 所 有 文档 〈 短 消息 ) 计算 出 LDiA 主题 向 量 。 下 面 我 们 看 
这 些 向 量 与 SVD 及 PCA 为 相同 文档 生成 的 主题 向 量 有 什么 不 同 : 


>>> ldial6 topic vectors = ldia.transform(bow docs) 
>>> ldial6 topic vectors = pd.DataFrame (ldial6 topic vectors,\ 





























‘tt 
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index=index, columns=columns) 
>>> ldial6 topic vectors.round(2) .head () 


topic0 topicl topic2 ee tOpiClL3” TPLCLd4 TOPpEC1S 
sms0 0.00 0.62 0.00 0.00 0.00 0.00 
smsl 0.01 01 0.01 0.01 a101 01 
sms2! 0.00 0.00 0.00 0.00 0.00 0.00 
sms3 0.00 0.00 0.00 0.00 0.00 0.00 
sms4 0.39 0.00 0Q..33 Es 0.00 0.00 0.00 








于 NLP 流水 线 结果 做 出 业务 决策 时 ， 这 是 使 LDiA 主题 更 容易 向 同事 解释 的 做 法 之 一 。 





所 以 LDiA 主题 对 人 类 很 有 效 ， 但 是 对 机 器 呢 ? LDA 分 类 器 将 如 何 处 理 这 些 主题 ? 


4.5.3 LDiA+LDA= 垃 圾 消息 过 滤器 


下 面 我 们 看 看 这 些 LDiA 主题 在 预测 ( 如 消息 的 垃圾 性 ) 时 的 有 效 性 。 我们 将 再 


























主题 向 量 来 训练 LDA 模型 ( 就 像 前 面 使 用 PCA 主题 向 量 所 做 的 一 样 ): 


的 精确 率 。 如 果 和 希望 使 流水 线 可 重 现 结果 ， 就 需要 为 这 些 模 型 和 数据 集 分 割 器 寻找 seed 参数 


>>> from sklearn.discriminant analysis import LinearDiscriminantAnalysis as LDA 


>>> X train, X test, y train, y test = 

>» train test split(ldial6 topic vectors, sms.spam, test size=0.5, 
random state=271828) 

>>> lda = LDA(n components=1) 





>>> lda = lda.fit(xX train, y train) < 
>>> sms['ldial6 spam'] = lda.predict (ldial6 topic vectors) 
>>> round(float (lda.score(X test, y test)), 2) 

































































2 ldia_topic_vectors 矩阵 的 行列 式 接近 于 零 , 所 以 很 可 能 会 得 到 

在 测试 集 上 取得 94% 的 精确 度 “变量 是 共 线 的 ”这 类 警告 。 这 种 情况 可 能 发 生 在 小 型 语料库 

是 相 沁 个 错 的 ,但 个 如 47.1 池 上 使 用 LDiA 的 场景 ,因为 这 时 的 主题 向 量 中 有 很 多 0, 并 且 

DA A 一 些 消息 可 以 被 重新 生成 为 其 他 消息 主题 的 线性 组 合 。 另 一 
种 可 能 的 场景 是 ,语料库 中 有 一 些 具有 相似 ( 或 相同 ) 主题 
混合 的 短 消息 





我 们 可 以 看 到 ， 上 述 主题 之 间 分 隔 得 更 加 清晰 。 在 为 消息 分 配 主题 时 ， 会 出 现 很 多 0。 在 基 


次 使 用 LDiA 








train test_ split() 和 LDiA 的 算法 是 随机 的 ， 所 以 每 次 运行 会 得 到 不 同 的 结果 和 不 同 




















我 们 可 以 在 每 次 运行 时 将 种 子 设置 为 相同 的 值 ， 从 而 获得 可 重 现 结果 。 
共 线 警告 可 能 发 生 的 一 种 情况 是 ， 如 果 文 本 包含 一 些 2-gram 或 3-gram， 其 中 组 成 它们 的 词 


只 同时 出 现在 这 些 2-gram 或 3-gram 中 。 因 此 ， 最 终日 



































O 


的 LDiA 模型 必须 在 这 些 相等 的 词 项 频率 之 


间 任 意 分 配 权 重 。 大 家 能 在 短 消息 中 找到 导致 共 线 性 ( 零 行 列 式 ) 的 词 吗 ?” 大 家 寻找 的 这 种 词 ， 
当 它 出 现时 ， 男 一 个 词 ( 它 的 配对 ) 总 是 在 相同 的 消息 中 。 
我 们 可 以 使 用 Python 而 不 是 手工 进行 搜索 。 首 先 ， 我 们 可 能 只 想 在 语料库 中 寻找 任何 相同 


的 词 袋 向 量 。 这些 向 量 可 能 出 现在 不 完全 相同 的 短 消 ， 


























息 中 , 如 “Hi there Bob! ”或 “Bob, Hi there”， 








因为 它们 有 相同 的 出 现 频 率 。 我 们 可 以 遍历 所 有 词 袋 对 ,以 寻找 相同 的 向 量 。 这些 向 量 肯定 会 在 
LDiA 或 LSA 中 引发 共 线 警告 。 
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如 果 没 有 找到 任何 词 袋 向 量 的 精确 副本 , 那么 可 以 遍历 词汇 表 中 所 有 的 词 对 。 然 后 遍历 所 有 
的 词 袋 ， 以 寻找 包含 完全 相同 词 对 的 短 消 息 。 如 果 这 些 词 在 短 消息 中 没有 单独 出 现 过 , 那么 已 经 
在 数据 集中 找到 了 一 个 “ 共 线 ”。 一 些 常见 的 2-gram ( 名 人 的 姓 和 名 总 是 同时 出 现 ) 可 能 会 导致 
这 种 情况 ， 而 且 从 来 没有 分 开 使 用 过 ， 例 如 “Bil Gates”( 只 要 短 消息 中 没有 其 他 Bill )。 

提示 “ 当 需 要 遍历 一 组 对 象 的 所 有 组 合 ( 词 对 或 三 元 组 ) 时 ， 可 以 使 用 Python 内 置 的 product () 函数 ; 

>>> from itertools import product 


>>> all pairs = [(wordl, word2) for (wordl, word2) in product (word list, 
word list) if not wordl == word2] 


我 们 在 测试 集 上 获得 的 精确 率 超过 90%， 而 且 只 需要 在 一 半 的 可 用 数据 上 进行 训练 。 但 是 ， 
由 于 数据 集 有 限 ， 我 们 确实 得 到 了 关于 特征 共 线 的 警告 ， 这 给 LDA 带 来 了 一 个 待 确定 问题 。 一 
是 使 用 train test_split 丢弃 了 一 半 的 文档 ， 那 么 主题 -文档 矩阵 的 行列 式 就 接近 于 零 。 如 
果 需 要 的 话 , 可 以 关闭 LDiA n_components 来 解决 这 个 问题 , 但 是 它 往 往 会 将 这 些 主 题 组 合 在 
一 起 ， 而 这 些 主题 是 彼此 的 线性 组 合 〈 共 线 )。 

但 是 , 我 们 看 看 这 里 的 LDiA 模型 与 基于 TF-IDF 向 量 的 高 维 模 型 相 比 结果 如 何 。TF-IDF 向 
量 有 更 多 的 特征 (超过 3000 个 独立 的 词 项 )。 所 以 很 可 能 会 遇 到 过 拟 合 和 弱 泛 化 问题 ， 这 就 是 
LDiA 和 PCA 汉化 的 用 武之 地 : 


>>> from sklearn.feature extraction.text import TfidfVectorizer 

>>> from nltk.tokenize.casual import casual tokenize 

>>> tfidf = TfidfVectorizer (tokenizer=casual tokenize) 

>>> tfidf docs = tfidf.fit transform(raw documents=sms.text) .toarray() 
>>> tfidf docs = tfidf docs - tfidf docs.mean (axis=0) 













































































>>> X train, X test, y train, y test = train test split (tfidf docs,\ 
i sms.spam.values, test size=0.5, random state=271828) 
>>> lda = LDA(n components=1) < 








>>> ldqa = 1dqa.fit(X train, y train) < 
>>> round(float (lda.score(X _ train y train)), 3) 我 们 将 “假装 ”所 有 得 消息 中 都 
二 “ 7 /CE 

只 有 一 个 主题 ， 因 为 我 们 只 天 
>>> round(float (lda.score(X test, y test)), 3) 只 有 一 个 主题 ， 为 我 们 只 对 














“spamminess” 主 题 的 一 个 标量 

















0.748 窗 WA 











当 长 的 时 间 。 要 有 耐心 ， 它 用 一 个 9232 
的 超 平面 在 分 割 向 量 空 间 1 
在 训练 集 上 基于 TF-IDF 的 模型 的 精确 率 是 完美 的 ! 但 是 ， 当 使 用 低 维 主题 向 量 而 不 是 TF-IDF 
向 量 训练 时 ， 测 试 集 上 的 精确 率 要 低 很 多 。 
测试 集 的 精确 率 是 唯一 重要 的 精确 率 。 这 正 是 主题 建 模 (LSA ) 应 该 做 的 事情 。 它 可 以 帮助 
我 们 从 一 个 小 型 的 训练 集中 泛 化 出 模型 ， 因 此 它 仍 然 可 以 很 好 地 处 理 使 用 不 同 词组 合 (但 主题 相 
似 ) 的 消息 。 














AS 





















































4.5.4 ”更 公平 的 对 比 : 32 个 LDiA 主题 
下 面 我 们 再 试 一 次 , 这 次 会 用 更 多 的 维度 和 更 多 的 主题 也许 LDiA 不 如 LSA (PCA ) 高 效 ， 
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所 以 它 需 要 更 多 的 主题 来 分 配 词 。 下 面 我 们 试 试 32 个 主题 ( 成 分 ): 


>>> 1dqia32 = LDiA(n components=32, learning method='batch') 
>>> ldia32 = ldia32.fit (bow docs) 

>>> ldia32.components_.shape 

(32).. 0232) 


现在 我 们 计算 所 有 文档 ( 短 消息 ) 的 新 的 32 维 主题 向 量 : 


>>> ldia32 topic vectors = ldia32.transform (bow_ docs) 

>>> columns32 = ['topic{}'.format (i) for i in range (ldia32.n components)] 

>>> ldia32 topic vectors = pd.DataFrame (ldia32 topic vectors, index=index,\ 
columns=columns32) 

>>> ldia32 topic vectors.round(2) .head () 





toBic0: topicl topic2 Ce tOBLIC29. "tOPLTC30,. ‘tOBICSL 
sms0 0.00 Q:5 0.0 人 0.0 0.0 0.0 
smsl 0.00 .0 0.0 0.0 0.0 0.0 
sms2! 0.00 0.0 0.0 0.0 0.0 0.0 
sms3 0.00 0.0 0.0 059 0.0 0.0 
sms4 0321 O00 0.0 0z0 0.0 0.0 


我 们 可 以 看 到 ， 这 些 主题 甚至 更 加 稀疏 ， 而 且 能 更 加 清晰 地 分 隔 开 。 
下 面 是 LDA 模型 (分 类 器 ) 的 训练 过 程 ， 这 次 我 们 使 用 32 维 的 LDiA 主题 向 量 : 


>>> X train, X test, y train, y test = 








» train test split (ldia32 topic vectors, sms.spam, test size=0.5, 
> random state=271828) 

>>> lda = LDA(n components=1) 

>>> 1lda = lda.fit(xX train, y train) 


>>> sms['ldia32 spam'] = lda.predict (ldia32 topic vectors) 

>>> X train.shape Rt ee 
(2418, 32) .shape 是 检查 主题 向 量 维 
>>> round (float (lda.score(XxX train, y train)), 3) 数 的 另 一 种 方法 

0.924 


>>> round(float(LIda.score (X_test，yY test)), 3) 


0 322” 二] 重要 的 是 测试 精确 率 ， 这 里 92.7% 的 测试 结果 与 使 用 
16 维 LDiA 主题 向 量 时 94% 的 测试 结果 相当 























不 要 将 这 里 “主题 ”或 成 分 数量 的 优化 与 前 面 的 共 线 性 问题 混淆 。 增 加 或 减少 主题 的 数量 并 
不 能 解决 或 造成 共 线 问题 。 这 是 底层 数据 造成 的 问题 。 如 果 想 摆脱 这 个 警告 , 那么 需要 将 “噪声 ” 
或 元 数据 以 人 造 词 的 方式 添加 到 短 消息 中 , 或 者 需要 删除 那些 重复 的 词 向 量 。 如果 文档 中 有 重复 
出 现 多 次 的 词 向 量 或 词 对 ， 那 么 主题 的 数量 优化 也 无 法 解决 这 个 问题 。 

主题 的 数量 越 多 , 那么 主题 的 精确 率 就 可 以 越 高 ,至少 对 这 个 数据 集 来 说 , 产品 这 一 主题 线 
性 分 隔 得 更 好 。 但 是 这 里 的 效果 仍然 不 如 PCA + LDA 96% 的 精确 率 。 因 此 ，PCA 能 使 这 里 的 短 
消息 主题 向 量 更 有 效 地 展开 ， 这 样 就 允许 使 用 超 平面 以 更 大 的 消息 间隔 来 分 隔 类 。 

大 家 可 以 自由 探索 scikitlearn 和 gensim 中 都 提供 的 狄 利克 雷 分 布 模型 的 源 代码 ， 它 们 有 一 
个 类 似 于 LSA 的 API ( sklearn.TruncatedSVD 和 gensim.LsiModel )。 在 后 面 的 章节 中 我 们 讨论 摘 
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要 时 ， 将 向 大 家 展示 一 个 示例 应 用 。LDiA 擅长 挖 气 可 解释 的 主题 ， 如 用 于 摘要 的 主题 ， 而 且 在 








产生 对 线性 分 类 有 用 的 主题 方面 LDiA 也 不 差 。 
深入 工具 箱 














我 们 可 以 在 任何 Python 模块 上 的 _file 属性 中 找到 源 代码 路 径 ,， 如 sklearn. file 。 人 在 














ipython ( jupyter 控制 台 ) 中 ， 我 们 可 以 使 用 ?? 查 看 任何 函数 、 类 或 对 象 的 源 代 码 ， 如 LDA? 





>>> import sklearn 
>>> Sklearn. tatey 
'/Users/hobs/anaconda3/envs/conda env nlpia/lib/python3.6/site-packages/ 
Seem 
>>> from sklearn.discriminant analysis\ 
本 import LinearDiscriminantAnalysis as LDA 
>>> LDA?? 
Init signature: LDA(solver='svd', shrinkage=None, priors=None, n compone 
=None, store covariance=False, tol=0.0001) 
Souree: 
class LinearDiscriminantAnalysis (BaseEstimator, LinearClassifierMixin, 
TransformerMixin): 
Wt ee HD ve nt le Ve 


A classifier with a linear decision boundary, generated by fitting 
class conditional densities to the data and using Bayes' rule. 


The model fits a Gaussian density to each class, assuming that all 
classes share the same covariance matrix. 














上 述 做 法 对 扩展 函数 和 类 不 起 作用 ， 它 们 的 源 代码 隐藏 在 已 编译 的 C++ 模块 中 。 
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Skl 


闪 忆 全 


这 里 我 们 需要 重 温 第 2 章 和 第 3 章 中 讨论 过 的 那些 相似 度 评 分 方法 , 以 确保 我 们 得 到 的 新 主 








题 向 量 空间 能 够 使 用 这 些 方法 。 请 记 住 ， 我 们 可 以 使 用 相似 度 评分 (和 距离 )， 根 据 P 
表示 向 量 间 的 相似 度 ( 或 距离 ) 来 判断 文档 间 有 多 相似 。 








天 篇 文档 的 





我 们 可 以 使 用 相似 度 评分 (和 距离 ) 来 查看 LSA 主题 模型 与 第 3 章 的 高 维 TF-IDF 模型 之 间 
的 一 致 性 。 我 们 将 看 到 ， 在 去 掉 了 包含 在 高 维 词 袋 中 的 大 量 信息 之 后 ，LSI 模型 在 保持 这 些 距 离 
方面 十 分 出 色 。 我 们 可 以 检查 主题 向 量 之 间 的 距离 , 以 及 这 个 距离 是 否 较 好 地 表示 文档 主题 之 间 
































的 距离 。 我 们 想 要 检查 意义 相近 的 文档 在 新 主题 向 量 空 间 中 彼此 接近 。 











LSA 能 够 保持 较 大 的 距离 ， 但 它 并 不 总 能 保持 小 的 距离 (文档 之 间 关 系 的 精细 结构 )。LSA 











底层 的 SVD 算法 的 重点 是 使 新 主题 向 量 空间 中 所 有 文档 之 间 的 方差 最 大 化 。 














特征 向 量 ( 词 向 量 、 主 题 向 量 、 文 档 上 下 文 向 量 等 ) 之 间 的 距离 驱动 着 NLP 流水 线 或 任何 














机 器 学 习 流水 线 的 性 能 。 那 么 ， 在 高 维 空间 中 度量 距离 有 哪些 选择 呢 ? 对 一 个 具体 的 


NLP 问题 


来 说 , 又 应 该 选择 哪 一 个 呢 ? 这 些 常用 的 例子 中 有 一 些 可 以 从 几何 课程 或 线性 代数 中 所 熟知 , 但 
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很 多 例子 对 我 们 来 说 可 能 是 新 的 。 
国 欧 几 里 得 距离 或 笛 卡 儿 距 离 ， 或 均 方 根 误差 (RMSE ): 2 范 数 或 L,。 
平方 欧 几 里 得 距离 ， 距 离 平 方 和 ( SSD ): 七。 
余弦 、 夹 角 或 投影 距离 : 归 一 化 点 积 。 
闵可夫 斯 基 距 离 : p 范 数 或 己 。 
分 级 距离 ， 分 级 范 数 : p 范 数 或 L, 为 0<p<1。 
城市 街区 距离 、 受 哈 顿 距离 或 出 租车 距离 ， 绝 对 距离 之 和 (SAD ): 1 范 数 或 Li。 
杰 卡 德 距 离 ， 逆 集合 相似 性 
马 哈 拉 诺 比 斯 距离 。 
田 莱 文 斯 坦 距离 或 编辑 距离 。 
计算 距离 的 各 种 方法 都 说 明了 它 的 重要 性 。 除 了 在 scikit-learn 中 成 对 距离 的 实现 , 还 有 许多 
其 他 的 实现 用 于 数学 专业 ， 如 拓扑 学 、 统 计 学 和 工程 学 等 。 为 便于 参考 ,代码 清单 4-7 中 给 出 了 
可 以 在 sklearn.metrics.pairwise 模块 中 找到 的 距离 。 


代码 清单 4-7 ”sklearn 中 可 用 的 成 对 距离 


"Cityblock’;. "OOSine!;y "euelidean yp. ll v12"y manhnattan py ‘brayeurtist, 
'canberra', 'chebyshev', 'correlation', 'dice', 'hamming', 'jaccard', 
'kulsinski', 'mahalanobis', 'matching', 'minkowski', 'rogerstanimoto', 
'russellrao', 'seuclidean', 'sokalmichener', 'sokalsneath', 'sgqeuclidean', 
"Yule' 


距离 通常 由 相似 度 (分 数 ) 计算 ， 反 之 亦 然 ， 因 此 距离 与 相似 度 得 分 成 反比 。 相 似 度 得 分 设 
计 为 0 到 1 之 间 。 典 型 的 距离 与 相似 度 之 间 的 换算 公式 如 下 : 


>>> similarity = 1. / (1. + distance) 























O 






































>>> distance = (1. / similarity) - 1. 

但 是 ， 对 于 0 到 1 之 间 ( 像 概 率 一 样 ) 的 距离 和 相似 度 得 分 ， 更 常用 的 公式 如 下 : 
>>> similarity = 1. - distance 

>>> distance = 1. - similarity 


余弦 距离 对 于 取 值 范围 有 自己 的 约定 。 两 个 向 量 之 间 的 夹 角 距离 通常 被 计算 为 两 个 向 量 之 间 
最 大 可 能 的 角 间 距 ( 180° 或 pi 弧度 ) “的 一 个 分 数 表示 。 

因此 ， 余 弱 相 似 度 与 余弦 距离 互 为 倒数 ; 

>>> import math 

>>> angular distance = math.acos (cosine similarity) / math.pi 


>>> distance = 1. / similarity - 1. 
>>> similarity = 1. - distance 


术语 “距离 ”( distance ) 和 “长 度 ”( length ) 经 常 与 术语 “度量 指标 ”( metric ) 混淆 ， 因 为 








Q@ 详 见 标题 为 “Cosine similarity” 的 网 页 。 
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许多 距离 和 长 度 都 是 有 效 和 有 用 的 度量 指标 。 但 不 幸 的 是 ， 并 非 所 有 的 距离 都 可 以 称 为 度量 指标 。 
更 令 人 困惑 的 是 ， 在 正式 的 数学 和 集合 论文 章 中 ， 度 量 指标 有 时 也 称 为 “距离 函数 ”( distance 
function ) 或 “距离 度量 指标 ”( distance metric ) 中 。 
度量 指标 
个 真正 的 度量 指标 必须 下 列 4 个 数学 性 质 ， 而 距离 或 “得 分 ”可 能 不 具有 这 些 性 质 。 
加 非 负 性 : 度量 指标 永远 不 可 能 是 负 的 ，metzric (A, B) >= 0。 
加 ”不 可 分 辨 竹 ， 如 果 两 个 对 象 之 间 的 度量 指标 为 零 ， 那 么 它们 是 相同 的 。 如 果 metric (A, B) == 0: 
assert(A == B)。 

加 ”对 称 性 ， 度 量 指 标 不 关心 方向 ,，metric(A, B)= metric(B, A)。 
三 角 不 等 式 : 无 法 通过 人 A 和 C 中 间 的 B 更 快 地 从 A 到 C, 即 metric(A, C) <= metric(A, 
Bele RE 


一 个 相关 的 数学 术语 度量 (measure )， 既 有 自然 的 英语 含义 ， 又 有 严格 的 数学 定义 。 我 们 会 
在 韦 氏 词典 和 数学 教科 书 的 词汇 表 中 找到 “measure”, 但 它们 对 这 个 词 的 定义 完全 不 同 。 所 以 我 
们 和 数学 教授 谈话 时 要 分 外 小 心 。 

对 数学 教授 来 说 ，measure 是 数学 对 象 构成 的 集合 的 大 小 ， 我 们 可 以 通过 和 集合 的 长 度 来 度量 
Python set 的 大 小 ,但 是 很 多 数学 集合 是 无 限 的 。 在 集合 论 中 ,对象 可 以 以 不 同 的 方式 表示 无 限 。 
度量 是 计算 一 个 数学 集合 的 len () 或 大 小 的 所 有 不 同方 法 ， 这 些 方法 针对 的 是 无 限 的 对 象 。 

定义 ”和 metric 一 样 ，measure 一 词 也 有 精确 的 数学 定义 ， 它 与 对 象 集合 的 大 小 有 关 。 因 此 ， 在 描述 

从 NLP 中 的 对 象 或 对 象 组 合 中 衍生 得 到 的 任何 分 数 或 统计 数据 时 ， 也 应 该 谨慎 使 用 measure 这 个 词 ”。 

但 是 在 现实 世界 中 ， 我们 可 以 度量 各 种 各 样 的 东西 。 当 把 它 用 作 动 词 时 ， 可 能 是 指 用 卷 尺 、 
直 尺 、 磅 秤 或 分 数 来 测量 某 物 。 这 就 是 本 书 中 所 使 用 的 measure 这 个 词 的 方式 , 但 是 我 们 尽量 不 
使 用 它 ， 这 样 数学 教授 就 不 会 责备 我 们 了 。 







































































































































































































































































47 反馈 及 改进 


前 面 所 有 的 LSA 方法 都 没有 考虑 文档 之 间 的 相似 度 信息 。 我 们 创建 的 主题 对 一 组 通用 规则 来 
说 是 最 优 的 。 在 这 些 特征 ( 主题 ) 提取 模型 的 无 监督 学 习 中 , 没有 任何 关于 主题 向 量 之 间 应 该 多 么 
接近 的 数据 。 我 们 也 不 允许 任何 关于 主题 向 量 在 哪里 结束 或 者 它们 之 间 相 关 性 如 何 的 反馈 。 引 导 
( steering ) 或 “ 习 得 型 距离 指标 ”( learned distance metrics ) 是 在 降 维 和 特征 提取 方面 的 最 新 进展 。 
通过 调整 向 聚 类 和 骸 和 人 算法 报告 的 距离 分 数 , 我 们 可 以 控制 自己 的 向 量 , 从 而 让 它们 使 一 些 代价 函 
数 最 小 化 。 通 过 这 种 方式 ， 可 以 “强制 ”向 量 专注 于 我 们 感 兴趣 的 信息 内 容 的 某 个 方面 。 

























































































Q@ 详 见 标题 为 “Metric (mathematics)” 的 维基 百科 词 条 。 
@) 详 见 标题 为 “Measure (mathematics)” 的 维基 百科 词 条 。 





























异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 




















130 第 4 章 ， 词 频 背 后 的 语义 








在 前 面 关于 LSA 的 小 节 中 ,我 们 忽略 了 文档 的 所 有 元 信息 。 例 如， 对 短 消息 来 说 ,我 们 忽略 
了 消息 的 发 送 者 。 这 是 一 个 很 好 的 主题 相似 度 的 指示 信息 ,可 以 用 于 通知 主题 向 量 的 转换 (LSA )。 

在 Talentpair 公司 ， 我 们 使 用 每 篇 文档 主题 向 量 之 间 的 余弦 距离 ， 对 简历 和 职位 描述 进行 匹 
配 。 这 种 做 法 效果 不 错 。 但 我 们 很 快 就 学 到 ， 当 开始 根据 职位 候选 人 和 负责 帮助 他 们 找 工作 的 客 
户 经 理 的 反馈 来 “引导 ”我 们 的 主题 向 量 时 ， 我 们 得 到 了 更 好 的 结果 。 相 比 于 其 他 所 有 向 量 对 ， 
相似 向 量 被 引导 得 更 加 接近 。 

一 种 方法 是 计算 两 个 质心 之 间 的 平均 差 ( 就 像 在 LDA 中 做 的 那样 ), 并 在 所 有 的 简历 或 职位 
描述 癌 量 中 添加 部 分 这 样 的 “偏差 ”。 这 样 做 应 该 去 掉 简 历 和 职位 描述 之 间 的 平均 主题 问 量 差异 。 
午餐 啤酒 之 类 的 主题 可 能 会 出 现在 职位 描述 中 , 但 绝 不 会 出 现在 简历 中 。 类 似 地 , 一 些 简历 中 可 
能 会 出 现 一 些 奇怪 的 爱好 ,如 水 下 雕塑 , 但 从 来 不 会 出 现在 职位 描述 中 。 引 导 主 题 向 量 可 以 帮助 
我 们 集中 在 感 兴趣 的 建 模 主题 上 。 

如 果 大 家 对 优化 主题 向 量 、 消 除 偏差 感 兴趣 ， 可 以 在 谷歌 学 术 ( Google Scholar ) 上 搜索 
“learmed distance/similarity metric” 或 者 “distance metrics for nonlinear embeddings””。 壮 憾 的 是 ， 
目前 scikit-learn 中 还 没有 实现 这 个 功能 的 模块 。 如 果 你 有 时 间 添 加 一 些 “ 引 导 ” 特 征 的 建议 或 代 
码 到 Scikit-Learn 项 目 ， 那 么 你 会 成 为 一 个 英雄 。 



















































































线性 判别 分 析 


下 面 我 们 在 标注 好 的 短 消息 数据 集 上 训练 一 个 线性 判别 分 析 ( LDA ) 模型 。LDA 的 工作 原 
理 与 LSA 类 似 , 但 是 它 需 要 分 类 标签 或 其 他 分 数 才 能 找到 高 维 空间 中 维度 ( 词 袋 或 TF-IDF 向 量 
中 的 词 项 ) 的 最 佳 线性 组 合 。LDA 没有 最 大 化 新 空间 中 所 有 向 量 之 间 的 分 离 程度 ( 方差 )， 而 是 
最 大 化 了 每 个 类 质心 向 量 之 间 的 距离 。 

但 是 ， 这 意味 着 必须 通过 给 出 样 例 ( 标注 好 的 向 量 ) 来 告诉 LDA 算法 想 对 哪些 主题 建 模 。 
只 有 这 样 , 算法 才能 计算 出 从 高 维 空间 到 低 维 空间 的 最 优 转换 。 得 到 的 低 维 向 量 的 维 数 不 能 超过 
所 能 提供 的 类 标签 或 分 数 的 数量 。 因 为 只 需要 训练 一 个 “垃圾 性 ”主题 ， 下 面 我 们 看 看 一 维 主题 
模型 在 垃圾 短 消息 分 类 方面 能 达到 多 高 的 精确 率 。 
















































































>>> lda = LDA(n components=1) 

>>> lda = lda.fit(tfidf docs, sms.spam) 

>>> sms['lda spaminess'] = lda.predict (tfidf docs) 

>>> ((sms.spam - sms.lda spaminess) xx 2.).sum() ** .5 
0.0 

>>> (sms.spam == sms.lda spaminess).sum() 

4837 

>>> len (sms) 

4837 





上 面 每 一 个 都 答对 了 ! 哦 ,等 一 下 。 我 们 之 前 是 怎么 讨论 过 拟 合 的 ?在 TF-IDF 向 量 中 有 10 000 





Q@ 详 见 标题 为 “Distance Metric Learning: A Comprehensive Survey” 的 网 页 。 
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个 词 项 ， 它 可 以 “ 记 住 ”答案 ， 这 一 点 儿 也 不 奇怪 。 下 面 我 们 来 做 一 些 交叉 验证 : 

>>> from sklearn.model selection import cross val score 

>>> lda = LDA(n components=1) 

>>> Scores = cross val score(lda, tfidf docs, sms.spam, cv=5) 

>>> "Accuracy: {:.2f} (+/-{:.2f})".format (scores.mean(), scores.std() * 2) 

'Accuracy: 0.76 (+/-0.03)' 

显然 这 个 模型 并 不 好 。 再 次 给 我 们 的 提醒 是 ， 永 远 不 要 对 模型 在 训练 集 上 的 效果 感到 
兴奋 。 

为 了 确保 76% 的 精确 率 数值 是 正确 的 ， 下 面 我 们 保留 三 分 之 一 的 数据 集 用 于 测试 : 

>>> from sklearn.model selection import train test split 

>>> X train, X test, y train, y test = train test split (tfidf docs,\ 

3 sms.spam, test size=0.33, random state=271828) 

>>> lda = LDA(n_ components=1) 

>>> 1da. fit (xX trarn; Ytrairn) 

LinearDiscriminantAnalysis(n components=1, priors=None, shrinkage=None, 

solver='svd', store covariance=False, tol=0.0001) 

>>> lda.score(X test, y test).round(3) 

0.765 

同样 ,测试 集 的 精确 率 也 较 低 。 因 此 ， 看 起 来 并 不 像 是 数据 抽样 做 得 不 好 ， 个 糟糕 的 
过 拟 合 的 模型 。 

下 面 我 们 看 看 LSA 和 LDA 结合 起 来 是 否 有 助 于 创建 一 个 精确 的 、 泛 化 能 力 强 的 模型 ， 这样 
面 对 新 的 短 消息 时 就 不 会 出 错 : 

>>> X train, X test, y train, y test = 

» train test split(pca topicvectors.values, sms.spam, test size=0.3, 

» random state=271828) 

>>> lda = LDA(n_ components=1) 

> Lda. fit(tX trarn, Vv tialn) 

LinearDiscriminantAnalysis(n components=1, priors=None, shrinkage=None, 

solver='svd', store covariance=False, tol=0.0001) 

>>> lda.score(X test, y test).round(3) 

0.965 

>>> lda = LDA(n components=1) 

>>> Scores = cross val score(lda, pca topicvectors, sms.spam, cv=10) 

>>> "Accuracy: {:.3f} (+/-{:.3f})".format(scores.mean(), scores.std() * 2) 

'Accuracy: 0.958 (+/-0.022) 

因此 ， 通 过 使 用 LSA， 我 们 可 以 刻画 一 个 只 有 16 个 维度 的 短 消息 ， 并 且 仍 然 有 足够 的 信息 





将 它们 分 类 为 垃圾 信息 〈 或 非 垃圾 信息 )。 我 们 的 低 维 模型 不 太 可 能 过 拟 合 ， 它 应 该 有 很 好 的 泛 


化 能 力 ， 并 且 能 够 对 尚未 看 到 的 短 消息 或 聊天 信息 进行 分 类 。 

现在 我 们 已 经 回 到 了 本 章 开 始 时 的 简单 模型 。 在 尝试 所 有 这 些 语义 分 析 之 前 ， 使 用 简 
LDA 模型 可 以 获得 更 高 的 精确 率 。 但 是 这 个 新 模型 的 优点 是 ， 现 在 可 以 在 多 于 一 个 的 维度 
建 表示 语句 语义 的 向 量 。 
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48 主题 向 量 的 威力 


通过 使 用 主题 向 量 , 我 们 可 以 比较 词 、 文 档 、 语 句 和 语料库 的 含义 , 我 们 也 可 以 找到 相似 文 
档 和 语句 的 “ 徐 ”。 我 们 不 再 仅仅 根据 词 的 用 法 来 比较 文档 之 间 的 距离 ， 也 不 再 局 限于 完全 基于 
词 的 选择 或 词汇 表 进 行 关 键 词 搜索 和 相关 性 排名 。 现 在 ,我 们 可 以 找到 与 查询 相关 的 文档 ， 而 不 
仅仅 只 是 与 词 统计 信息 本 身 很 好 地 匹配 。 

这 被 称 为 语义 搜索 ， 不 要 与 语义 Web 混淆 。 当 文档 不 包含 查询 词 但 实际 却 与 查询 相关 时 ， 
强大 的 搜索 引擎 通过 语义 搜索 实现 上 述 查 询 和 文档 的 匹配 。 这 些 高 级 搜索 引擎 使 用 LSA 主题 向 
量 , 来 区 分 The Cheese Shop 中 的 Python 包 和 佛罗里达 州 宠物 店 水 族 馆 中 的 蟒蛇 ( python ), 同 
时 仍然 能 识别 出 它们 与 Ruby gem 的 相似 之 处 。 

语义 搜索 为 我 们 提供 了 一 个 查找 和 生成 有 意义 文本 的 工具 , 但 是 我 们 的 大 脑 并 不 擅长 处 理 高 
维 物体 、 向 量 、 超 平面 、 超 球体 和 超 立 方 体 。 作 为 开发 人 员 和 机 器 学 习 工 程 师 , 我 们 的 直觉 对 于 
三 维 以 上 的 事物 就 会 朋 泪 。 

例如 ， 要 在 二 维 向 量 上 执行 查询 ， 例 如 在 谷歌 地 图 ( Google Maps ) 上 的 经 度 /纬度 位 置 ， 我 
们 可 以 快速 找到 附近 的 所 有 咖啡 店 ， 而 无 须 进 行 太 多 搜索 。 我 们 只 需要 扫描 《用 眼睛 或 代码 ) 附 
近 的 位 置 , 然后 向 外 螺旋 式 搜 索 即 可 。 或 者 ,我们 可 以 用 代码 创建 越 来 越 大 的 边界 框 ， 检查 某 个 
范围 内 的 经 度 和 纬度 。 在 超 空间 中 使 用 超 平面 和 超 立 方 体 来 形成 搜索 的 边界 是 不 可 能 的 。 

正如 Geoffry Hinton 所 说 :“ 要 在 一 个 14 维 空间 中 处 理 超 平面 , 我 们 先 可 视 化 一 个 三 维 空 间 , 然后 
大 声 地 对 自己 说 这 是 14 维 空间 。” 如 果 大 家 在 年 轻易 受 影响 的 时 期 读 过 Abbott 发 表 于 1884 年 的 《 平 
地 》( Flatland )， 那 么 可 能 会 做 得 比 挥 挥手 好 一 点 。 甚 至 大 家 可 以 把 头 从 三 维 世 界 的 窗口 探 出 一 半 ， 
进入 超 空 间 ， 足 以 从 外 面 将 见 那个 三 维 世 界 。 就 像 在 《平地 》 中 一 样 ， 本 章 使 用 了 大 量 二 维 可 视 化 效 
果 来 帮助 探索 超 空间 中 的 词 在 三 维 世界 中 留 下 的 阴影 。 如 果 急 于 想 看 看 它们 ， 请 跳 到 显示 词 向 量 的 散 
布 矩 阵 ( scatter matrix ) 部 分 。 我 们 可 能 还 想 回 顾 上 一 章 中 的 三 维 词 袋 向 量 ， 并 尝试 想象 一 下 ， 如 果 
在 词汇 表 中 再 添加 一 个 词 ， 以 创建 一 个 具有 语言 意义 的 四 维 世 界 ， 这 些 点 看 起 来 将 会 是 什么 样子 。 

如 果 花 一 点 儿 时 间 去 深入 思考 四 维 空间 , 记 住 这 种 复杂 度 的 爆炸 程度 超过 二 维 到 三 维 的 复杂 
度 的 增长 程度 , 指数 级 超过 从 一 维 数字 世界 到 三 角形 、 正 方形 和 圆 形 所 组 成 的 二 维 世 界 的 复杂 度 
的 增长 程度 。 

注意 一 维 线 、 二 维 人 矩形、 三 维 立方 体 等 各 种 可 能 性 的 爆炸 式 增长 ,通过 了 有 具 有 非 整 数 分形 维 数 的 

奇异 宇宙 ， 如 1.5 维 分 形 。 一 个 1.5 维 的 分 形 具 有 无 限 的 长 度 ， 虽 然 小 于 二 维 "， 却 完全 填充 了 一 个 



















































































































































































Q@ 语义 Web 是 结构 化 自然 语言 文本 的 一 种 实践 ， 它 在 HTML 文档 中 使 用 标签 ， 因 此 标签 的 层级 以 及 内 容 
能 够 揭示 网 页 中 元 素 ( 文本、 图 像 、 视 频 ) 之 间 的 关系 。 

@) Python Package Index 的 别名 。 译 者 注 

@ Ruby 是 一 种 编程 语言 ， 有 个 软件 包 叫 gem。 

@ 分 形 维度 (参见 下 载 资源 中 的 research-talk.pdf )。 
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二 维 平 面 ! 但 幸运 的 是 ， 这 些 并 不 是 “真实 的 ”维度 "。 除 非 我 们 对 分 数 距 离 度量 (如 p 范 数 ， 其 
公式 中 有 非 整 数 指数 ”) 感 兴趣 ， 否 则 我 们 在 NLP 中 不 必 担 心 这 些 维度 。 


4.8.1 语义 搜索 


当 根 据 文档 中 包含 的 词 或 部 分 词 搜索 文档 时 ， 称 为 全 文 搜索 。 这 就 是 搜索 引擎 所 做 的 事情 。 
它们 将 文档 分 成 块 (通常 是 词 )， 这 些 块 可 以 像 教 科 书 后 面 的 索引 那样 用 倒 排 索引 来 建立 索引 。 
它 利 用 大 量 簿 记 和 猜测 来 处 理 拼写 错误 和 录入 错误 ， 但 效果 非常 好 。 

语义 搜索 也 是 一 种 全 文 搜索 ， 但 它 会 考虑 词 在 查询 和 正在 搜索 的 文档 中 的 含义 。 在 本 章 中 ， 
我 们 已 经 学 习 了 利用 LSA 和 LDiA 这 两 种 方法 计算 主题 向 量 ， 它 们 在 向 量 中 捕捉 了 词 和 文档 的 语 
义 ( 意 义 )。 潜在 语义 分 析 最 初 被 称 为 潜在 语义 索引 的 原因 之 一 是 ， 它 承诺 用 一 个 数值 索引 ( 如 词 
袋 表 和 TF-IDF 表 ) 来 支持 语义 搜索 。 语义 搜索 将 是 信息 检索 的 下 一 件 大 事 。 

但 与 词 袋 表 和 TF-IDF 表 不 同 的 是 ， 传 统 的 倒 排 索 引 技 术 很 难 对 语义 向 量 表 进行 离散 化 和 索 
引 处 理 。 传 统 的 索引 方法 适用 于 二 值 词 出 现 向 量 、 离 散 向 量 ( 词 袋 向 量 )、 稀 玖 连续 向 量 (TF-IDF 
向 量 ) 和 低 维 连续 向 量 ( 三维 GIS 数据 )。 但 是 高 维 连续 向 量 , 如 来 自 LSA 或 LDiA 的 主题 向 量 ， 
是 一 个 挑战 。 倒 排 索引 适用 于 离散 向 量 或 二 值 向 量 ， 就 像 二 值 或 整数 型 词 -文档 向 量 表 一 样 ， 因 
为 索引 只 需要 为 每 个 非 零 的 离散 维度 维护 一 个 条 目 , 该 维度 的 值 在 引用 的 向 量 或 文档 中 可 能 存在 
也 可 能 不 存在 。 由 于 TF-IDF 向 量 是 稀疏 的 ， 大 部 分 为 零 ， 因 此 对 于 大 多 数 文档 的 大 多 数 维度 ， 
索引 中 不 需要 有 对 应 条 目 。 

LSA( 和 LDiA ) 生成 高 维 、 连 续 和 密集 的 主题 向 量 ( 零 很 少 )。 并 且 ， 语 义 分 析 算 法 无 法 
生成 一 个 高 效 的 用 于 可 扩展 搜索 的 索引 。 事 实 上 ， 前 一 节 中 讨论 的 “ 维 数 灾难 ”问题 使 得 精确 
索引 是 不 可 能 的 。 洪 在 语义 索引 的 “索引 ”是 一 种 希望 ， 而 不 是 现实 ， 所 以 术语 LSI 是 一 个 
容易 误导 的 名 称 。 也 许 这 就 是 LSA 成 为 描述 产生 主题 向 量 的 语义 分 析 算 法 的 更 流行 的 方法 的 
原因 。 

解决 高 维 向 量 问题 的 一 种 方法 是 使 用 局 部 敏感 哈 希 (locality sensitive hash，LSH ) 来 进行 索 
引 。LSH 类 似 于 邮政 编码 , 它 指定 一 个 超 空间 区 域 , 以便 以 后 可 以 轻松 地 再 次 找到 它 。 和 常规 哈 
希 一 样 ， 它 是 离散 的 ， 只 依赖 向 量 中 的 值 。 但 是 一 旦 向 量 超过 约 12 维 ，LSH 也 不 是 很 奏效 。 在 
图 4-6 中 ,每 一 行 表示 一 个 主题 向 量 的 大 小 ( 维 数 )， 该 维 数 从 二 维 开始 ， 一 直到 16 维 ， 就 像 之 
前 在 垃圾 短 消息 问题 中 使 用 的 向 量 一 样 。 














































































































































































































Q@ 分 形 维度 。 

@) 参见 “The Concentration of Fractional Distances”。 

@@ 像 PostgreSQL 数据 库 中 的 全 文 索引 往往 基于 字符 的 3-gram， 这 是 为 了 处 理 拼写 错误 和 无 法 解析 成 词 的 
文本 。 

@ 对 高 维 数据 聚 类 等 价 于 利用 分 界 框 离散 化 或 者 索引 高 维 数据 ， 关 于 这 些 内 容 可 以 参考 维基 百科 词 条 
“Clustering high dimensional data” 。 

@) 详 见 标题 为 “Inverted index” 的 网 页 。 
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维 数 第 100 个 前 1 位 _ 前 2 位 前 10 位 前 100 位 
余弦 距离 是 否 正确 是 否 正 确 是 否 正确 是 否 正确 
2 .00 TRUE TRUE TRUE TRUE 
3 .00 TRUE TRUE TRUE TRUE 
4 .00 TRUE TRUE TRUE TRUE 
| .01 TRUE TRUE TRUE TRUE 
6 .02 TRUE TRUE TRUE TRUE 
7 .02 TRUE TRUE TRUE FALSE 
8 .03 TRUE TRUE TRUE FALSE 
9 .04 TRUE TRUE TRUE FALSE 
10 .05 TRUE TRUE FALSE FALSE 
11 .07 TRUE TRUE TRUE FALSE 
12 .06 TRUE TRUE FALSE FALSE 
13 .09 TRUE TRUE FALSE FALSE 
14 .14 TRUE FALSE FALSE FALSE 
15 .14 TRUE TRUE FALSE FALSE 
16 .09 TRUE TRUE FALSE FALSE 


























图 4-6 ”语义 搜索 的 精确 率 在 约 12 维 时 下 降 




















4-6 展示 的 是 使 用 LSH 对 大 量 语义 向 量 进 行 索引 时 的 搜索 效果 。 一旦 向 量 的 维 数 超过 16， 
就 很 难 返 回 两 个 好 的 搜索 结果 。 

那么 如 何在 没有 索引 的 情况 下 对 100 维 向 量 进 行 语义 搜索 呢 ? 现在 我 们 已 经 知道 如 何 使 用 
LSA 将 查询 串 转 换 为 主题 向 量 , 还 知道 如 何 使 用 余弦 相似 度 评分 (标量 积 、 内 积 或 点 积 ) 来 比较 
两 个 向 量 的 相似 度 从 而 找到 最 接近 的 匹配 结果 。 要 找到 精确 的 语义 匹配 , 我 们 需要 找到 与 特定 查 
询 (搜索 ) 主题 向量 最 接近 的 所 有 文档 主题 向 量 。 但 如 果 我 们 及 篇 文档 ， 则 必须 对 查询 主题 向 
量 进行 n 次 比较 ,这 里 有 大 量 的 点 积 计 算 。 

我 们 可 以 使 用 矩阵 乘法 将 numpy 中 的 运算 向 量化 ， 但 这 不 会 减少 运算 的 数量 ， 而 只 会 让 运 
算 的 速度 提高 100 倍 。 基 本 的 情况 是 ， 精 确 的 语义 搜索 仍然 需要 对 每 个 查询 进行 0(n) 次 乘法 和 
加 法 运算 ， 因 此 它 的 扩展 只 与 语料库 的 大 小 呈 线 性 关系 。 这 对 大 规模 语料库 (如 Google 搜索 或 
维基 百科 语义 搜索 ) 来 说 是 行 不 通 的 。 

这 里 的 关键 是 ， 我 们 为 高 维 向量 设 定 一 个 足够 好 的 索引 方法 即 可 ， 并 不 追求 完美 的 索引 或 
LSH 算法 。 现 在 有 几 个 使 用 LSH 来 高 效 地 实现 语义 搜索 的 开源 实现 ， 它 们 实现 了 一 些 高 效 、 精 
确 的 近似 最 近邻 (approximate nearest neighbors ) 算法 。 一 些 最 容易 使 用 和 安装 的 工具 有 : 

加 Spotify 的 Annoy 软件 包 ” 


























Q@ 对 计算 成 对 距离 的 Python 代码 特别 是 双重 艇 套 的 for 循环 进行 向 量化 处 理 ， 代 码 的 执行 速度 可 以 提高 
约 100 倍 。 参 考 Hacker Noon 的 文章 “Vectorizing the Loops with Numpy”。 
@ Spotify 的 研究 人 员 在 其 GitHub 库 中 对 比 了 annoy 和 其 他 算法 及 实现 的 性 能 。 
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国 Gensim 的 gensim.models.KeyedVector 类 ” 

从 技术 上 讲 , 这 些 索 引 或 哈 希 解决 方案 并 不 能 保证 能 找到 所 有 与 语义 搜索 查询 匹配 的 最 佳 结 
果 。 但 是 ， 如 果 我 们 愿意 放弃 一 点 儿 精确 率 的 话 ， 它 们 几乎 可 以 像 传统 的 TP-IDF 向 量 或 词 袋 向 
量 的 倒 排 索引 一 样 ， 快 速 得 到 一 个 很 好 的 近似 匹配 列表 ” 
































4.8.2 ”改进 

在 下 一 章 中 , 我 们 将 学 习 如 何 微调 主题 向 量 的 概念 , 以 便 与 词 关 联 的 向 量 更 加 精确 和 有 用 。 
为 做 到 这 一 点 ,我 们 首先 开始 学 习 神 经 网 络 。 这 将 提高 流水 线 从 短文 本 其 至 单个 词 中 提取 意义 
的 能 力 。 








49 小 结 


图 ”可 以 使 用 SVD 进行 语义 分 析 ， 将 TF-IDF 和 词 袋 向 量 分 解 并 转换 为 主题 向 量 。 

加 当 需 要 计算 可 解释 的 主题 向 量 时 ， 请 使 用 LDiA。 

国 无 论 以 何 种 方式 创建 主题 向 量 ， 都 可 以 使 用 它们 进行 语义 搜索 ， 即 根据 文档 的 含义 来 查 
找 文档 。 

四 主题 向 量 可 以 用 来 预测 一 个 社交 网 络 帖 子 是 否 是 垃圾 的 ， 或 者 是 否 可 能 被 喜欢 。 

时 现在 我 们 知道 了 如 何 绕 过 “ 维 数 灾难 ”， 在 语义 向 量 空间 中 找到 近似 最 近邻 。 















































QD gensim 中 用 于 数 百 维 词 向 量 的 方法 也 适用 于 任何 语义 向 量 或 主题 向 量 。 人 参考 gensim 的 “KeyedVectors” 
文档 0o 

@ 如 果 读 者 想 了 解 更 快 地 寻找 高 维 向 量 最 近邻 的 方法 ， 可 以 查看 附录 下 ,或 者 使 用 Spotify annoy 包 对 主 
题 向 量 进行 索引 。 
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第 二 部 分 
深度 学 习 ( 神经 网 络 ) 





外 入 一 部 分 汇总 了 自然 语言 处 理工 具 ， 并 深入 了 解 了 基于 统计 型 向 量 空间 模型 的 机 
器 学 习 算法 。 我 们 会 发 现 ,即使 只 看 词 之 间 的 关系 统计 信息 也 能 发 现 许多 含义 。 

在 第 一 部 分 中 我 们 还 学 习 了 一 些 算法 , 例如 LSA, 通过 将 词汇 聚 到 主题 中 来 理解 词 之 间 的 
关系 。 

但 是 第 一 部 分 只 考虑 了 词 之 间 的 线性 关系 , 并 且 , 通常 需要 人 工 判别 来 设计 特征 提取 
器 并 选择 模型 参数 。 而 第 二 部 分 的 神经 网 络 则 可 以 完成 大 部 分 烦琐 的 特征 提取 工作 。 并 且 ， 
第 二 部 分 介绍 的 模型 将 比 第 一 部 分 中 通过 手动 调整 特征 提取 器 构建 出 来 的 模型 更 精确 。 

使 用 多 层 神经 网 络 进行 机 器 学 习 被 称 为 深度 学 习 。 这 种 新 的 NLP 方法 或 者 对 人 类 思 
维 建 模 的 方法 经 常 被 哲学 家 和 神经 科学 家 称 为 “连接 主义 ””。 通 过 可 用 性 更 高 的 计算 资 
源 和 丰富 的 开源 文化 更 深入 地 了 解 深度 学 习 , 将 帮助 大 家 更 深入 地 理解 自然 语言 。 在 第 二 
部 分 , 我 们 将 开启 深度 学 习 的 “ 黑 盒 ”学习 如 何以 更 深层 次 的 非 线 性 方法 进行 文本 建 模 。 

接 下 来 , 我 们 首先 介绍 神经 网 络 的 入 门 知 识 , 然后 研究 一 些 不 同类 型 的 神经 网 络 及 其 
在 NLP 领域 中 的 应 用 。 同 时 , 我 们 也 会 研究 词 之 间 的 模式 以 及 词 中 各 个 字符 之 间 的 模式 。 
最 后 ， 我 们 将 向 大 家 展示 如 何 使 用 机 器 学 习 来 实际 生成 新 文本 。 



































































































































G@ 条 件 概 率 (conditional probability ) 是 统计 词 之 间 关 系 的 一 个 术语 ( 给 定 一 个 词 前 后 出 现 的 词 , 计算 该 词 
出 现 的 概率 )。 互 相关 ( cross correlation ) 是 男 一 个 统计 术语 ( 词 同 时 出 现 的 似 然 率 )。 词 -文档 矩阵 的 奇 
异 值 和 奇异 向 量 可 用 于 将 词汇 聚 为 主题 ， 对 词 频 进行 线性 组 合 。 

@) 参见 标题 为 “Stanford Encyclopedia of Philosophy, Connectionism” 的 网 页 。 
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本 章 主 要 内 容 

图 神经 网 络 的 历史 

图 推 合 感知 机 

图 反 向 传播 算法 

图 初 识 神经 网 络 

国 用 Keras 实现 一 个 基本 的 神经 网 络 








近年 来 , 围绕 神经 网 络 前 景 的 新 闻 频 频 出 现 , 起 初 它 们 主要 针对 神经 网 络 对 于 输入 数据 进行 
分 类 和 识别 的 能 力 进行 报道 , 最 近 几 年 来 有 关 特 定神 经 网 络 结构 生成 原创 性 内 容 的 报道 也 不 断 出 
现 。 大 大 小 小 的 公司 都 在 使 用 神经 网 络 ， 并 将 其 应 用 于 各 种 领域 ,从 图 像 描 述 生 成 、 自 动 驾 驶 车 
载 导 航 ， 到 卫星 图 像 中 的 太阳 能 电池 板 检测 ， 以 及 监控 视频 中 的 人 脸 识 别 。 幸 和 运 的 是 ,神经 网 络 
也 被 应 用 于 NLP 领域 。 虽 然 深度 神经 网 络 引发 了 大 量 的 关注 ， 但 机 器 人 统治 世界 可 能 比 所 有 标 
题 党 所 说 的 还 要 遥远 。 然 而 ， 神 经 网 络 确实 非常 强大 ， 大 家 可 以 轻易 地 使 用 它 来 完成 NLP 聊天 
机 器 人 流水 线 里 的 输入 文本 分 类 、 文 档 摘要 甚至 小 说 作品 生成 任务 。 

本 章 旨 在 作为 神经 网 络 初学 者 的 入 门 知 识 。 在 本 章 中 ， 我 们 不 局 限于 NLP 领域 的 内 容 ， 而 
是 对 神经 网 络 底层 做 一 个 基本 的 了 解 ,为 接 下 来 的 章节 做 准备 。 如 果 大 家 已 经 熟悉 神经 网 络 的 基 
本 知识 , 则 可 以 跳 到 下 一 章 , 在 那里 我 们 将 深入 了 解 各 种 用 于 文本 处 理 的 神经 网 络 。 虽 然 反 向 传 
播 (backpropagation ) 算法 的 数学 基础 知识 超出 了 本 书 的 范围 ， 但 熟练 掌握 其 基本 的 工作 原理 将 
帮助 我 们 理解 语言 及 其 背后 隐藏 的 模式 。 

提示 ”Manning 出 版 社 还 出 版 了 另外 两 本 关于 深度 学 习 的 重要 著作 : 

国 Deep Learning with Python’, Francois Chollet， 由 Keras 作者 撰写 的 关于 深度 学 习 的 深入 理解 

的 书 ; 
图 ”Grokking Deep Learning，Andrew Trask， 关 于 各 种 深度 学 习 模型 和 实践 的 概述 性 的 书 。 




















































































































Q 中 译本 书 名 为 《Python 深度 学 习 》》 由 人 民 邮 电 出 版 社 出 版 。 一 一 译 者 注 
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5.1 神经 网 络 的 组 成 


随 着 近 十 年 来 计算 能 力 和 存储 能 力 的 爆炸 式 增长 , 一 项 旧 技 术 又 迎 来 了 新 的 发 展 。 在 20 世纪 50 
年 代 ， 弗 兰 克 “， 罗 森 布 莱 特 (FrankRosenblatt ) 首次 提出 了 感知 机 算法 "“， 用 于 数据 中 的 模式 识别 。 
感知 机 的 基本 思路 是 简单 地 模仿 活性 神经 元 细胞 的 运行 原理 。 当 电信 号 通过 树 突 ( dendrite ) 进入 
细胞 核 ( nucleus ) 时 ( 如 图 5-1 所 示 )， 会 逐渐 积聚 电荷 。 达 到 一 定 电位 后 ， 细 胞 就 会 被 激活 ， 
然后 通过 轴 突 (axon ) 发 出 电信 号 。 然 而， 树 突 之 间 具 有 一 定 的 差异 性 。 由 于 细胞 对 通过 某 些 特 














定 树 突 的 信号 更 敏感 ， 因 此 在 这 些 通路 中 激活 轴 突 所 需要 的 信号 更 少 。 


树 突 





细胞 核 





图 5-1 ”神经 元 细胞 














控制 神经 元 运行 的 生物 学 知识 毫 无 疑问 超出 了 本 书 的 范围 , 但 是 这 里 面 有 一 个 值得 注意 的 关 
键 概念 , 那 就 是 决定 细胞 何 时 激活 时 细胞 如 何 对 输入 信号 进行 加 权 。 神 经 元 会 在 其 生命 周期 内 的 
决策 过 程 中 动态 调整 这 些 权重 。 接 下 来 我 们 将 会 模拟 这 个 过 程 。 





5.1.1 感知 机 


罗 森 布 莱 特 最 初 的 项 目 是 教会 机 咒 识 别 图 像 。 最 初 的 感知 机 是 光 接 收回 和 电位 器 的 集合 体 ， 
而 不 是 现代 意义 上 的 计算 机 。 抛 开具 体 的 实现 不 谈 ， 罗 和 森 布 莱 特 的 想法 是 取 一 幅 图 像 的 特征 ,并 
为 每 项 特征 赋予 相应 的 权重 ， 用 于 度量 其 重要 性 。 输 入 图 像 的 每 项 特征 都 是 图 像 的 一 小 部 分 。 

通过 将 图 像 暴 露 给 光 接 收 需 栅 格 ， 每 个 兴 接 收 需 都 会 接收 图 像 的 一 小 部 分 。 特 定 的 光 接收 需 
所 能 接收 的 图 像 亮 度 将 决定 它 发 送 给 相关 “ 树 突 ” 的 信号 强度 。 

每 个 树 突 都 有 一 个 电位 器 形 式 的 权 值 。 当 输入 信和 号 足够 强 时 , 它 就 会 把 信号 传递 给 “原子 核 ” 
的 主体 “细胞 ”。 一旦 所 有 电位 带 发 出 的 信号 达到 一 定 程度 的 国 值 ， 感 知 机 会 激活 轴 突 ， 表 示 当 
前 展示 的 图 像 是 正 向 匹配 。 如 果 对 于 给 定 的 图 像 没 有 激活 ， 那 就 是 一 个 负 向 匹配 。 类 似 于 识别 一 
图 像 是 不 是 热狗 或 者 是 不 是 高 尾 花 。 





































































































全 





GD Frank Rosenblatt ( 1957 )“The perceptron-a perceiving and recognizing automaton”，Report 85-460-1， 康 奈 
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?由 


5.1.2 ”数字 感知 机 
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到 目前 为 止 , 大 家 可 能 已 经 有 很 多 关于 生物 学 、 
把 神经 元 里 最 重要 的 概念 抽 离 出 来 。 








电流 和 光 接 收 需 方面 的 疑问 。 我 们 暂停 一 下 ， 





从 本 质 上 说 ， 这 个 过 程 就 是 从 数据 集中 选取 一 个 样本 〈example )， 并 将 其 展示 给 算法 ， 然 后 让 











算法 判断 “是 ”或 “不 是 ,这 就 是 目前 我 们 所 做 的 事 | 








情 。 我 们 所 需 完成 的 第 一 步 是 确定 样本 的 特征 。 





选择 适合 的 特征 是 机 器 学 习 中 一 个 极 具 挑 战 性 的 部 分 。 在 “一 般 性 ”的 机 需 学 习 问 题 中 ， 如 预测 房 





价 ， 
花 数据 集 "来 预测 某 种 花 的 种 类 , 那样 的 话 , 特征 就 变 
在 罗 森 布 莱 特 的 实验 中 ， 








寺 征 可 能 是 房屋 面积 (平方 英尺 )、 最 终 售 价 和 所 在 地 区 的 邮政 编码 。 或 者 ， 也 许 大 家 想 用 将 尾 


成 花 淤 长 度 、 花 办 宽度 、 查 片 长 度 和 榴 片 宽度 。 


寺 征 是 每 个 像素 ( 图 像 的 子 区 域 ) 的 强度 值 ， 每 个 照片 接收 器 接 收 一 个 


像素 。 然 后 为 每 个 特征 分 配 权 重 。 这 里 不 用 担心 如 何 得 到 这 些 权 重 ， 只 要 把 它们 理解 为 能 够 输入 神经 














元 所 需 的 信号 强度 值 的 百分比 即 可 。 如 果 大 家 熟悉 线 合 
提示 一 般 而 言 ， 


X= [x1, x, 7 


回归 ， 可 能 已 经 知道 这 些 权重 是 如 何 得 到 的 。 


把 单个 特征 表示 为 x， 其 中 i 是 整数 。 所 有 特征 的 集合 表示 为 羡 ， 表示 一 个 向 量 : 


bb, Xn] 


类 似 地 ， 每 个 特征 的 权重 表示 为 w;， 其 中 i 对 应 于 与 该 权重 关联 的 特征 x 的 下 标 ， 所 有 权重 可 统一 
表示 为 一 个 向 量 抑 : 








W= [wi, WO Wi wn] 
有 了 这 些 特征 ， 只 需 将 每 个 特征 (x; ) 乘 以 对 应 的 权重 (w )， 然 后 将 这 些 乘积 求 和 : 
Ca wi) 十 (Ca wa) t+ i wi) + 




















这 里 有 一 个 缺少 的 部 分 是 是 否 激活 神经 元 的 阔 值 。 一 旦 加 权 和 超过 某 个 净值 ,感知 机 就 输出 


1， 和 否则 输出 0。 
我 们 可 以 使 用 一 个 简单 的 阶 路 函数 〈 在 图 5-2 中 标记 为 “激活 函数 ”) 来 表示 这 个 交 值 。 





0 或 1 














图 5-2 基本 的 感知 机 


























J 营 尾 花 数 据 集 经 常用 于 向 新 接触 的 学 生 介绍 机 融 学 习 。 
Q 单个 神经 元 的 输入 权 值 在 数学 上 等 价 于 多 元 线性 回归 或 对 





具体 参见 Scikit-Learn 文档 。 
率 回归 函数 的 斜率 。 
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5.1.3 ”认识 偏 置 


图 5-2 的 例子 中 提 到 了 偏 置 。 这 到 底 是 什么 ”实际 上 , 偏 置 是 神经 元 中 常用 的 输入 项 。 和 其 
他 输入 元 素 一 样 , 神 经 元 会 给 偏 置 一 个 权重 , 该 权重 与 其 他 权重 用 同样 的 方式 来 训练 。 在 关于 神 
经 网 络 的 各 种 文献 中 ， 偏 置 有 两 种 表示 形式 。 一 种 表示 形式 是 将 其 表示 为 输入 向 量 , 例 如 对 于 
维 向 量 的 输入 ， 在 向 量 的 开头 或 结尾 处 增加 一 个 元 素 ， 构 成 一 个 n + 1 维 的 向 量 。1 的 位 置 与 网 
络 无 关 ， 只 要 在 所 有 样本 中 保持 一 致 即 可 。 男 一 种 表示 形式 是 ， 首 先 假定 存在 一 个 偏 置 项 , 将 其 
独立 于 输入 之 外 ， 其 对 应 一 个 独立 的 权重 ,将 该 权重 乘 以 1， 然后 与 样本 输入 值 及 其 相关 权重 的 
点 积 进行 加 和 。 这 两 者 实际 上 是 一 样 的 ， 只 不 过 分 别 是 两 种 常见 的 表示 形式 而 已 。 

设置 偏 置 权重 的 原因 是 神经 元 需要 对 全 0 的 输入 具有 弹性 。 网 络 需 要 学 习 在 输入 全 为 0 的 情 
况 下 输出 仍然 为 0, 但 它 可 能 做 不 到 这 一 点 。 如 果 没 有 偏 置 项 ， 神 经 元 对 初始 或 学 习 的 任意 权重 
都 会 输出 0 x 权重 =0。 而 有 了 偏 置 项 之 后 ,就 不 会 有 这 个 问题 了 。 如 果 神 经 元 需要 学 习 输 出 0， 
在 这 种 情况 下 ， 神 经 元 可 以 学 会 减 小 与 偏 置 相关 的 权重 ， 使 点 积 保持 在 阔 值 以 下 即 可 。 

图 5-3 用 可 视 化 方法 对 生物 的 大 脑 神经 元 的 信号 与 深度 学 习 人 工 神经 元 的 信号 进行 了 类 比 ， 
如 果 想 要 做 更 深入 的 了 解 , 可 以 思考 一 下 你 是 如 何 使 用 生物 神经 元 来 阅读 本 书 并 学 习 有 关 自 然 语 
言 处 理 的 深度 学 习 知识 的 。 


输入 

































































Xo 








图 5-3 ”感知 机 与 生物 神经 元 











用 数学 术语 来 说 ， 感 知 机 的 输出 表示 为 f(x)， 如 下 : 





_ ]， nt 入 
f (3)= 和 


0， 其 他 
公式 5-1 阅 值 激活 函数 





























J 自然 语言 理解 ( NLU ) 是 学 术 界 经 常 使 用 的 一 个 术语 ， 是 机 器 表现 出 能 够 理解 自然 语言 文本 的 一 种 自然 
语言 处 理 过 程 。Word2vec 词 能 人 是 自然 语言 理解 任务 的 一 个 例子 。 问 答 系统 和 阅读 理解 任务 也 属于 自 
然 语 言 理解 范畴 。 神 经 网 络 经 常用 于 自然 语言 理解 任务 中 。 
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提示 “输入 向 量 ( 慎 ) 与 权重 向 量 ( 球 ) 两 两 相 乘 后 的 加 和 就 是 这 两 个 向 量 的 点 积 。 这 是 线性 代数 

在 神经 网 络 中 最 基础 的 应 用 ， 对 神经 网 络 的 发 展 影响 巨大 。 另 外 ， 通 过 现代 计算 机 GPU 对 线性 代 

数 操作 的 性 能 优化 来 完成 感知 机 的 矩阵 乘法 运算 ， 使 得 实现 的 神经 网 络 变 得 极为 高 效 。 

此 时 的 感知 机 并 未 学 到 任何 东西 , 不 过 大 家 已 经 获得 了 非常 重要 的 结果 , 我 们 已 经 向 模型 输 
入 数据 并 且 得 到 输出 。 当 然 这 个 输出 可 能 是 错误 的 ， 因 为 还 没有 告诉 感知 机 如 何 获得 权重 ， 而 这 
正 是 最 有 趣 的 地 方 所 在 。 

提示 “所 有 神经 网 络 的 基本 单位 都 是 神经 元 ， 基 本 感知 机 是 广义 神经 元 的 一 个 特例 ， 从 现在 开始 ， 

我 们 将 感知 机 称 为 一 个 神经 元 。 


























1. Python 版 神经 元 
在 Python 中 ,计算 神 经 元 的 输出 是 很 简单 的 。 大 家 可 以 用 numpy 的 dot 函数 将 两 个 向 量 相 乘 : 
>>> import numpy as np 


>>> example input = [1, .2, .1, .05, .2] 
>>> example weights = [.2, .12, .4, .6, .90] 


>>> input vector = np.array (example input) 
>>> weights = np.array (example weights) 
>>> bias weight = .2 


>>> activation level = np.dot (input vector, weights) +\ 


bi Lo a Eo BO 3 
SRS WOT , 这 里 bias_weight * 1 只 是 为 了 强调 bias_weight 和 其 他 





i i 于 JL 
5 权重 一 样 : 权重 与 输入 值 相 乘 ， 区 别 只 是 bias_weight 
的 输入 特征 值 总 是 1 











接 下 来 ， 假 设 我 们 选择 一 个 简单 的 阀 值 激活 函数 ， 并 选择 0.5 作为 国 值 ， 结 果 如 下 : 


>>> threshold = 0.5 
>>> if activation level >= threshold: 
perceptron output = 1 
. else: 
perceptron output = 0 
>>> perceptron output) 
1 


对 于 给 定 的 输入 样本 example input 和 权重 ,这 个 感知 机 将 会 输出 1。 如 果 有 许多 
example_input 向 量 ， 输 出 将 会 是 一 个 标签 集合 ， 大 家 可 以 检查 每 次 感知 机 的 预测 是 否 正 确 。 


2. 课堂 时 间 


大 家 已 经 构建 了 一 个 基于 数据 进行 预测 的 方法 ， 它 为 机 器 学 习 创 造 了 条 件 。 到 目前 为 止 , 权 
重 都 作为 任意 值 而 被 我 们 忽略 了 。 实 际 上 ,它们 是 整个 架构 的 关键 , 现在 我 们 需要 一 种 算法 ， 基 
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于 给 定 样本 的 预测 结果 来 调整 权重 值 的 大 小 。 

感知 机 将 权重 的 调整 看 成 是 给 定 输入 下 预测 系统 正确 性 的 一 个 函数 ， 从 而 学 习 这 些 权 重 。 但 
是 这 一 切 从 何 开始 呢 ? 未 经 训练 的 神经 元 的 权重 一 开始 是 随机 的 ! 通常 是 从 正 态 分 布 中 选取 趋 近 
于 零 的 随机 值 。 在 前 面 的 例子 中 , 大 家 可 以 看 到 从 零 开 始 的 权重 (包括 偏 置 权重 ) 为 何 会 导致 输 
出 全 部 为 零 。 但 是 通过 设置 微小 的 变化 , 无 须 提供 给 神经 元 太 多 的 能 力 , 神经 元 便 能 以 此 为 依据 
判断 结果 何 时 为 对 何 时 为 错 。 

然后 就 可 以 开始 学 习 过 程 了 。 通过 向 系统 输入 许多 不 同 的 样本 , 并 根据 神经 元 的 输出 是 否 是 
我 们 想 要 的 结果 来 对 权重 进行 微小 的 调整 。 当 有 足够 的 样本 ( 且 在 正确 的 条 件 下 )， 误 差 应 该 逐 
渐 趋 于 零 ， 系 统 就 经 过 了 学 习 。 

其 中 最 关键 的 一 个 诀窍 是 , 每 个 权重 都 是 根据 它 对 结果 误差 的 贡献 程度 来 进行 调整 。 权 重 越 
大 《对 结果 影响 越 大 )， 那 么 该 权重 对 给 定 输入 的 感知 机 输出 的 正确 性 /错误 性 就 负 有 越 大 的 责任 。 

假设 之 前 的 输入 example_input 对 应 的 结果 是 0: 


>>> expected output = 0 
>>> new weights = [] 



































>>> for i, x in enumerate (example input): 
new weights.append(weights[i] + (expected output -\ 


a 在 上 述 的 第 一 次 计算 中 ， 








>>> weights = np.array (new weights) new weight=0.2+(0-1)x1=-0.8 





[0.2, 0.12, 0.4, 0.6, 0.9] 
>>> weights , 二 
[-0.8 -0.08 0.3 0.55 0.7 新 的 权重 


这 个 处 理 方法 将 同一 份 训 练 集 反复 输入 网 络 中 , 在 适当 的 情况 下 ,即使 是 对 于 之 前 没 见 过 的 
数据 ， 感 知 机 也 能 做 出 正确 的 预测 。 


3. 有 趣 的 逻辑 学 习 问 题 


上 面 使 用 了 一 些 随 机 数字 做 例子 。 我们 把 这 个 方法 应 用 到 一 个 具体 问题 上 , 来 看 看 如 何 通 过 
仅 向 计算 机 展示 一 些 标记 样本 来 教 它 学 会 一 个 概念 。 

接 下 来 ,我 们 将 让 计算 机 理解 逻辑 或 ( OR )。 如 果 一 个 表达 式 的 一 边 或 另 一 边 为 真 (或 两 边 
都 为 真 )， 则 逻辑 或 语句 的 结果 为 真 。 这 个 逮 辑 非常 简单 。 对 于 以 下 这 个 问题 ， 我 们 可 以 手动 构 
造 所 有 可 能 的 样本 (在 现实 中 很 少 出 现 这 种 情况 )， 每 个 样本 由 两 个 信号 组 成 ， 其 中 每 个 信号 都 
为 真 (1 ) 或 假 (0 )， 如 代码 清单 5-1 所 示 。 


>>> example _ weights ”| 
日 仪 里 








代码 清单 5-1 ”逻辑 或 问题 





>>> sample data = [[0, 0] # False, False 
区 # False, True 
[这 ji ' 机 2DE 总 
[1, 1]] # True, True 
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>>> expected results = [0, # (False OR False) gives False 
1, # (False OR True ) gives True 
1, # (True OR False) gives True 
1] # (True OR True ) gives True 


>>> activation threshold = 0.5 
我 们 需要 一 些 工 具 ，numpy 可 以 用 来 做 向 量 (数组 ) 乘法 ，random 用 来 初始 化 权重 : 


>>> from random import random 
>>> import numpy as np 


>>> weights = np.random.random(2)/1000 # Small random float 0 <w< .001 
>>> weights 
[5.62332144e-04 7.69468028e-05] 


这 里 还 需要 一 个 偏 置 : 


>>> bias weight = np.random.random() / 1000 
>>> bias weight 
0.0009984699077277136 


然后 将 其 传递 到 流水 线 中 ， 计 算得 到 4 个 样本 的 预测 结果 ， 如 代码 清单 5-2 所 示 。 





代码 清单 5-2 感知 机 随机 预测 





>>> for idx, sample in enumerate (sample data): 
input vector = np.array (sample) 
activation level = np.dot (input vector, weights) +\ 
(bias weight * 1) 
if activation level > activation threshold: 
perceptron output = 1 
else: 
perceptron output = 0 
print('Predicted {}'.format (perceptron output)) 
print('Expected: {}'.format (expected results[idx])) 
print() 
Predicted 0 
Expected: 0 


Predicted 0 
Expected: 1 


Predicted 0 
Expected: 1 








Predicted 0 





Expected: 1 


随机 的 权重 值 对 这 个 神经 元 没有 多 大 帮助 , 我 们 得 到 1 个 正确 、3 个 错误 的 预测 结果 。 接 下 来 我 
们 让 网 络 继续 学 习 , 并 在 每 次 迭代 中 不 只 是 打印 1 或 0, 而 是 同时 更 新 权重 值 , 如 代码 清单 5-3 所 示 。 
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代码 清单 5-3 ”感知 机 学 习 


>>> for iteration num in range(5) : 
correct answers = 0 
for idx, sample in enumerate (sample data): 
input vector = np.array (sample) 
weights = np.array (weights) 
activation level = np.dot (input vector, weights) +\ 
(bias weight * 1) 
if activation level > activation threshold: 
perceptron output = 1 
else: 
perceptron output = 0 
if perceptron output == expected resultsl[idx]: 
Correct answers += 1 
new weights = [] 
for i, x in enumerate (sample): I 
new_weights.append (weights[i] + (expected results[idx] -\ 
perceptron output) * x) 
bias weight = bias weight + ((expected results[idx] -AN 
perceptron output) * 1) 
weights = np.array (new weights) 
print('{} correct answers out of 4, for iteration {}'\ 
.format (correct answers, iteration num)) 
Correct answers out of 4, for iteration 0 
Correct answers out of 4, for iteration 1 偏 置 权重 也 会 随 着 输 


, for iteration 2 入 一 起 更 新 

, for iteration 3 

, for iteration 4 
这 就 是 使 用 魔法 的 地 方 。 当 然 还 有 一 些 更 高 效 的 方法 来 实现 ， 不 过 
我 们 还 是 通过 循环 来 强调 每 个 权重 是 由 其 输入 (xi ) 更 新 的 。 如 果 
输入 数据 很 小 或 为 零 ， 则 无 论 误 差 大 小 ， 该 输入 对 该 权重 的 影响 都 
将 会 很 小 。 相 反 ， 如 果 输 入 数据 很 大 ， 则 影响 会 很 大 

哈哈 ! 这 个 感知 机 真是 个 好 学 生 。 通 过 内 部 循环 更 新 权重 ， 感 知 机 从 数据 集中 学 习 了 经 验 。 
在 第 一 次 迭代 后 ， 它 比 随机 猜测 ( 正确 率 为 1/4 ) 多 得 到 了 两 个 正确 结果 ( 正确 率 为 3/4 )。 

在 第 二 次 迭代 中 ， 它 过 度 修正 了 权重 ( 更 改 了 太 多 )， 然 后 通过 调整 权重 来 回溯 结果 。 当 第 
四 次 迭代 完成 后 ， 它 已 经 完美 地 学 习 了 这 些 关 系 。 随 后 的 迭代 将 不 再 更 新 网 络 ， 因 为 每 个 样本 的 
误差 为 0， 所 以 不 会 再 对 权重 做 调整 。 

这 就 是 所 谓 的 收 仇 。 当 一 个 模型 的 误差 函数 达到 了 最 小 值 ， 或 者 稳定 在 一 个 值 上 ， 该 模型 就 
被 称 为 收敛 。 有 时 候 可 能 没有 这 么 幸运 。 有 时 神经 网 络 在 寻找 最 优 权 值 时 不 断 波动 以 满足 一 批 数 
据 的 相互 关系 ,但 无 法 收敛 。 在 5.8 节 中 , 大 家 将 看 到 目标 函数 (objective function ) 或 损失 函数 
(loss function ) 如 何 影响 神经 网 络 对 最 优 权 重 的 选择 。 


4. 下 一 步 


基本 感知 机 有 一 个 固有 缺陷 ， 那 就 是 ， 如 果 数 据 不 是 线性 可 分 的 ， 或 者 数据 之 间 的 关系 不 能 用 线 
生 关 系 来 描述 ， 模 型 将 无 法 收敛 ,也 将 不 具有 任何 有 效 预 测 的 能 力 ， 因 为 它 无 法 准确 地 预测 目标 变量 。 











Correct answers out of 


心心 Now， 


4 
Correct answers out of 4 
4 
4 


correct answers out of 
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早期 的 实验 在 仅 基于 样本 图 像 及 其 类 别 来 进行 图 像 分 类 的 学 习 上 取得 了 成 功 。 这 个 概念 在 早 
期 很 激动 人 心 ， 但 很 快 受到 了 来 自明 斯 基 ( Minsky ) 和 佩 珀 特 ( Papert ) 的 考验 "， 他 们 指出 感知 
机 在 分 类 方面 有 严重 的 局 限 性 , 他们 证 明了 如 果 数 据 样本 不 能 线性 可 分 为 独立 的 组 , 那么 感知 机 
将 无 法 学 习 如 何 对 输入 数据 进行 分 类 。 

线性 可 分 的 数据 点 ( 如 图 5-4 所 示 ) 对 感知 机 来 说 是 没有 问题 的 ， 而 存在 类 别 交 又 的 数据 将 
导致 单 神经 元 感知 机 原 地 踏步 ， 学 习 预 测 的 结果 将 不 比 随机 猜测 好 ， 表 现 得 就 像 是 在 随机 抛 硬币 。 
在 图 5-5 中 我 们 就 无 法 在 两 个 类 ( 分 别 用 点 和 又 表示 ) 之 间 画 一 条 分 割 线 。 
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图 5-4 线性 可 分 的 数据 

















图 5-5” 非 线性 可 分 的 数据 





@ Minsky 和 Papert 的 感知 机 ，1969。 








异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 





148 第 5 章 神经 网 络 初步 ( 感知 机 与 反 向 传播 ) 








感知 机 会 用 线性 方程 来 描述 数据 集 的 特征 与 数据 集中 的 目标 变量 之 间 的 关系 , 这 就 是 线性 回 








归 ， 但 是 感知 机 无 法 描述 非 线性 方程 或 者 非 线 性 关系 。 
局 部 极 小 值 与 全 局 极 小 值 








当 一 个 感知 机 收敛 时 ， 可 以 说 它 找到 了 一 个 描述 数据 与 目标 变量 之 间 关 系 的 线性 方程 。 然 而 ， 这 并 








不 能 说 明 这 个 描述 性 线性 方程 有 多 好 ， 或 者 说 代价 有 多 “小 ” 









































。 如 果 有 多 个 解决 方案 ， 即 存在 着 多 个 可 能 
的 极 小 代价 ， 它 只 会 确定 一 个 由 权重 初始 值 决定 的 、 特 定 的 极 小 值 。 这 被 称 为 局 部 极 小 值 ， 因 为 它 是 在 





























权重 开始 的 地 方 附 近 找 到 的 最 优 值 ( 最 小 的 代价 )。 它 可 能 不 是 全 局 极 小 值 ， 因 为 全 局 极 小 值 需 要 搜索 所 
























































可 能 的 权重 值 。 在 大 多 数 情况 下 ， 无 法 确定 是 否 找到 了 全 局 极 小 值 。 


很 多 数据 值 之 间 的 关系 不 是 线性 的 , 也 没有 好 的 线性 回归 或 线性 方程 能 够 描述 这 些 关 系 。 许 
多 数据 集 不 能 用 直线 或 平面 来 线性 分 割 。 因 为 世界 上 的 大 多 数 数据 不 能 由 直线 或 平面 来 清楚 地 分 
开 ， 明 斯 基 和 佩 珀 特 发 表 的 “证 明 ” 让 感知 机 被 束之高阁 。 






































但 是 有 关 感 知 机 的 想法 并 不 会 就 此 消亡 。Rumelhardt McClelland 的 合作 成 果 ”( Geoffrey 


Hinton 也 参与 其 中 ) 展示 了 可 以 使 用 多 层 感知 机 的 组 合 来 解决 异 或 (XOR ) 问题 ”， 此 后 感知 机 





再 次 浮 出 水 面 。 之 前 ， 大 家 使 用 单 层 感 知 机 解决 的 或 ( 

















OR ) 问题 属于 比较 简单 的 问题 ， 也 没有 





用 到 多 层 反 向 传播 。Rumelhardt McClelland 的 关键 突破 是 发 现 了 一 种 方法 , 该 方法 可 以 为 每 个 感 




















知 机 适当 地 分 配 误差 。 他 们 使 用 的 是 一 种 叫 反 向 传播 的 传统 思想 , 通过 这 种 跨越 多 个 神经 元 层 的 











反 向 传播 思想 ， 第 一 个 现代 神经 网 络 诞生 了 。 



































基本 感知 机 有 一 个 固有 的 缺陷 ， 即 如 果 数 据 不 是 线性 可 分 的 , 则 模型 不 会 收敛 到 具有 有 效 预 





测 能 力 的 解 。 


注意 代码 清单 5-3 中 的 代码 通过 一 个 单 层 感知 机 解决 了 或 问题 。 代 码 清单 5-1 代码 中 感知 机 学 到 


的 0 和 1 组 成 的 表格 是 二 元 逻辑 或 的 输出 结果 。 蜡 或 问题 








每 类 (0 或 1 ) 样本 将 是 非 线性 可 分 的 。 在 二 维特 征 向 量 
于 图 5-5 )， 所 以 无 法 通过 画 一 条 直线 来 区 分 出 数据 样本 1 











稍微 改变 了 一 下 该 数据 表 ， 以 此 来 教 感知 


机 如 何 模拟 一 个 独占 的 逻辑 或 门 。 如 果 改 变 一 下 最 后 一 个 示例 的 正确 结果 , 将 1( 真 ) 改 为 0( 假 )， 
从 而 将 其 转换 为 逻辑 异 或 , 这 个 问题 就 会 变 得 困难 许多 。 在 不 向 神经 网 络 添加 额外 神经 元 的 情况 下 ， 
空间 中 ， 这 些 类 彼此 呈 对 角 线 分 布 〈 类 似 


(逻辑 真 ) 和 0 (逻辑 假 ) 








尽管 神经 网 络 可 以 解决 复杂 的 非 线性 问题 ， 但 是 那 时 计算 成 本 太 高 ， 用 两 个 感知 机 和 一 堆 花 哨 的 
反 向 传播 数学 算法 来 解决 异 或 问题 被 认为 是 对 宝贵 计算 资源 的 极 大 浪费 ， 因 为 这 个 问题 只 需要 用 一 个 
逻辑 门 或 一 行 代码 就 能 解决 。 事 实证 明 ， 它 们 不 适合 被 广泛 使 用 ， 所 以 只 能 再 次 回 到 学 术 界 和 超级 计 
算 机 实验 的 角落 。 由 此 开启 了 第 二 次 “人 工 智能 寒冬 ”， 这 种 情况 从 1990 年 持续 到 2010 年 左右 。 后 


























GD Rumelhart, D.E、Hinton, G E. 和 Williams, R.J. 1986 年 在 《 自 
by back-propagating errors”( 参见 第 323、533 ~ 536 页 )。 
@ 参见 维基 百科 词 条 “The XOR affair”。 
































然 》( Nature ) 上 发 表 的 “Learning representations 


@) 详 见 标题 为 “Philosophical Transactions of the Royal Society B: Biological Sciences” 的 网 页 。 
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来 ， 随 着 计算 能 力 、 反 向 传播 算法 和 原始 数据 ( 例如 猜 和 狗 的 标注 图 像 ”) 的 发 展 ， 昂 贵 的 计算 
算法 和 有 限 的 数据 集 都 不 再 是 障碍 。 第 三 次 神经 网 络 时 代 开 始 了 。 
下 面 我 们 来 看 看 他 们 发 现 了 什么 。 


5. 第 二 次 人 工 智能 寒冬 的 出 现 


和 大 多 数 伟 大 的 思想 一 样 , 好 的 思想 最 终 都 会 浮 出 水 面 。 人 们 发 现 只 要 对 感知 机 背后 的 基本 
思想 进行 扩展 ,就 可 以 克服 之 前 的 那些 限制 。 将 多 个 感知 机 集合 到 一 起 ,并 将 数据 输入 一 个 (或 
多 个 ) 感知 机 中 ,并且 以 这 些 感知 机 的 输出 作为 输入 ,传递 到 更 多 的 感知 机 ， 最 后 将 输出 与 期 户 
值 进行 比较 ， 这 个 系统 (神经 网 络 ) 便 可 以 学 习 更 复杂 的 模式 ， 克 服 了 类 的 线性 不 可 分 的 挑战 ， 
如 异 或 问题 。 其 中 的 关键 是 : 如 何 更 新 前 面 各 层 中 的 权重 ? 

接 下 来 我 们 暂停 一 下 , 将 这 个 过 程 的 一 个 重要 部 分 形式 化 。 到 目前 为 止 , 我 们 已 经 讨论 了 误 
差 和 感知 机 的 预测 结果 与 真实 结果 的 偏离 程度 。 测 量 这 个 误差 是 由 代价 函数 或 损失 函数 来 完成 
的 。 正 如 我 们 看 到 的 ,代价 函 数量 化 了 对 于 输入 “问题 ”(x ) 网 络 应 该 输出 的 正确 答案 与 实际 输 
出 值 (y ) 之 间 的 差距 。 损 失 函 数 则 表示 网 络 输 出 错误 答案 的 次 数 以 及 错误 总 量 。 公 式 5-2 是 代 
价 函数 的 一 个 例子 ， 表 示 真 实 值 与 模型 预测 值 之 间 的 误差 : 

err(x) = bb -fo) 
公式 5-2 ”真实 值 与 预测 值 之 间 的 误差 
训练 感知 机 或 者 神经 网 络 的 目标 是 最 小 化 所 有 输入 样本 数据 的 代价 函数 。 
J (x) = min err (x;) 


i=l 












































































































































公式 5-3 ”希望 最 小 化 的 代价 函数 


接 下 来 大 家 会 看 到 还 有 一 些 其 他 种 类 的 代价 函数 ,如 均 方 误差 , 这 些 通常 已 经 在 神经 网 络 框 
架 中 定义 好 了 ， 大 家 无 须 自 己 去 决定 哪些 是 最 好 的 代价 函数 。 需 要 牢记 的 是 , 最 终 目标 是 将 数据 
集 上 的 代价 函数 最 小 化 ， 这 样 此 处 给 出 的 其 他 概念 才 有 意义 。 


6. 反 向 传播 算法 


辛 顿 ( Hinton ) 和 他 的 同事 提出 一 种 用 多 层 感 知 机 同时 处 理 一 个 目标 的 方法 。 这 个 方法 可 以 
解决 线性 不 可 分 问题 。 通 过 该 方法 ， 他 们 可 以 像 拟 合 线性 函数 那样 去 拟 合 非 线性 函数 。 

但 是 如 何 更 新 这 些 不 同感 知 机 的 权重 呢 ? 造成 误差 的 原因 是 什么 ”假设 两 个 感知 机 彼此 相 
邻 ， 并 接收 相同 的 和 输入， 无 论 怎样 处 理 输出 〈 连 接 、 求 和 、 相 乘 )， 当 我 们 试图 将 误差 传播 回 到 
初始 权重 的 时 候 ， 它 们 〈 输 出 ) 都 将 是 输入 的 函数 〈 两边 是 相同 的 )， 所 以 它们 每 一 步 的 更 新 量 
都 是 一 样 的 , 感知 机 不 会 有 不 同 的 结果 。 这 里 的 多 个 感知 机 将 是 元 余 的 。 它 们 的 权重 一 样 ， 神 经 











































































































Q@ 参见 下 载 资源 中 的 Leaming Multiple Layers of Features from Tiny Images.pdf 文件 ， 作 者 为 Alex Krizhevsky。 
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网 络 也 不 会 学 到 更 多 东西 。 

大 家 再 来 想象 一 下 ， 如 果 将 一 个 感知 机 作为 第 二 个 感知 机 的 输入 ,是 不 是 更 令 人 困惑 了 ,这 
到 底 是 在 做 什么 ? 

反 向 传播 可 以 解决 这 个 问题 ,但 首先 需要 稍微 调整 一 下 感知 机 。 记 住 ,权重 是 根据 它们 对 整 
体 误 差 的 贡献 来 更 新 的 。 但 是 如 果 权 重 对 应 的 输出 成 为 另 一 个 感知 机 的 输入 , 那么 从 第 二 个 感知 
机 开始 ， 我 们 对 误差 的 认识 就 变 得 有 些 模糊 了 。 

如 图 5-6 所 示 ， 权 重 wy 通过 下 一 层 的 权重 (wy ) 和 (wz ) 来 影响 误差 ， 因 此 我 们 需要 一 种 
方法 来 计算 wi; 对 误差 的 贡献 ， 这 个 方法 就 是 反 向 传播 。 
隐藏 层 / 






























































如 何 更 新 
输入 向 量 ”这 些 权 重 ? 输出 层 / 输出 向 量 





图 5-6 包含 隐藏 权重 的 神经 网 络 

现在 是 时 候 停止 使 用 “感知 机 ”这 个 术语 了 ， 因 为 之 后 大 家 将 改变 每 个 神经 元 权重 的 更 新 方 
式 。 从 这 里 开始 , 我们 提 到 的 神经 元 将 更 通用 也 更 强大 , 它 包 含 了 感知 机 。 在 很 多 文献 中 神经 元 
也 被 称 为 单元 或 节点 ， 在 大 多 数 情况 下 ， 这 些 术 语 是 可 以 互 换 的 。 























所 有 类 型 的 神经 网 络 都 是 由 一 组 神经 元 和 神经 元 之 间 的 连接 组 成 的 。 我 们 经 常 把 它们 组 织 成 
层级 结构 ,不 过 这 不 是 必需 的 。 如 果 在 神经 网 络 的 结构 中 , 将 一 个 神经 元 的 输出 作为 另 一 个 神经 
元 的 输入 ， 就 意味 着 出 现 了 隐藏 神经 元 或 者 隐藏 层 ， 而 不 再 只 是 单纯 的 输入 层 、 输 出 层 。 

图 5-7 中 展示 的 是 一 个 全 连接 网 络 ， 图 中 没有 展示 出 所 有 的 连接 ， 在 全 连接 网 络 中 ， 每 个 输 
入 元 素 都 与 下 一 层 的 各 个 神经 元 相连 ， 每 个 连接 都 有 相应 的 权重 。 因 此 , 在 一 个 以 四 维 向 量 为 输 
入 、 有 5 个 神经 元 的 全 连接 神经 网 络 中 ， 一 共有 20 个 权重 (5 个 神经 元 各 连接 4 个 权重 )。 

感知 机 的 每 个 输入 都 有 一 个 权重 , 第 二 层 神 经 元 的 权重 不 是 分 配给 原始 输入 的 ,而 是 分 配给 
来 自 第 一 层 的 各 个 输出 。 从 这 里 我 们 可 以 看 到 计算 第 一 层 权 重 对 总 体 误差 的 影响 的 难度 。 第 一 层 
权重 对 误差 的 影响 并 不 是 只 来 自 某 个 单独 权重 ， 而 是 通过 下 一 层 中 每 个 神经 元 的 权重 来 产生 的 。 
虽然 反 向 传播 算法 本 身 的 推导 和 数学 细节 非常 有 趣 , 但 超出 了 本 书 的 范围 , 我 们 对 此 只 做 一 个 简 
单 的 概述 ， 使 大 家 不 至 于 对 神经 网 络 这 个 黑 盒 一 无 所 知 。 

反 向 传播 是 误差 反 向 传播 的 缩写 ， 描 述 了 如 何 根据 输入 、 输 出 和 期 望 值 来 更 新 权重 。 传 播 ， 
或 者 说 前 向 传播 ， 是 指 输入 数据 通过 网 络 “ 向 前 ”流动 ， 并 以 此 计算 出 输入 对 应 的 输出 。 要 进行 
反 向 传播 ， 首 先 需要 将 感知 机 的 激活 函数 更 改 为 稍微 复杂 一 点 儿 的 函数 。 
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输入 向 量 隐藏 层 


输出 向 量 
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神经 元 
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图 5-7 全 连接 神经 网 络 




















到 目前 为 止 , 大 家 一 直 在 使 用 阶 路 函数 作为 人 工 神经 元 的 激活 函数 。 但 是 接 下 来 会 发 现 , 反 
向 传播 需要 一 个 非 线 性 连续 可 微 的 激活 函数 “， 如 公式 5-4 中 常用 的 sigmoid 函数 所 示 , 现在 每 个 
神经 元 都 会 输出 介 于 两 个 值 (如 0 和 1) 之 间 的 值 : 














s(x)=— 


l+e™ 


公式 5-4 ”sigmoid 函数 


为 什么 激活 函数 需 是 非 线性 的 
因为 需要 让 神经 元 能 够 模拟 特征 向 量 和 目标 变量 之 间 的 非 线性 关系 。 如 果 神 经 元 只 是 将 输入 与 权重 
相 乘 然后 做 加 和 ， 那 么 输出 必然 是 输入 的 线性 函数 ， 这 个 模型 连 最 简单 的 非 线 性 关系 都 无 法 表示 。 
之 前 使 用 的 神经 元 冰 值 函数 是 一 个 非 线性 阶 路 函数。 所 以 理论 上 只 要 有 足够 多 的 神经 元 就 可 以 用 来 
训练 非 线性 关系 模型 。 
这 就 是 非 线性 激活 函数 的 优势 ， 它 使 神经 网 络 可 以 建立 非 线性 关系 模型 。 一 个 连续 可 微 的 非 线性 函数 ， 如 
sigmoid， 可 以 将 误差 平滑 地 反 向 传播 到 多 层 神 经 元 上 ， 从 而 加 速 训练 进程 。sigmoid 神经 元 的 学 习 速 度 很 快 。 




















































































































还 有 许多 其 他 的 激活 函数 ,如 双 曲 正切 函数 和 修正 线性 单元 函数 ,它们 各 有 优 劣 , 适用 于 不 
同 的 神经 网 络 结构 ， 大 家 将 在 之 后 的 章节 中 学 习 。 

为 什么 要 求 可 微 呢 ?” 如 果 能 够 计算 出 这 个 函数 的 导数 ， 就 能 对 函数 中 的 各 个 变量 求 偏 导数 。 
这 里 的 关键 是 “各 个 变量 "， 这 样 就 能 通过 接收 到 的 输入 来 更 新 权重 ! 














Q@ 连续 可 微 函数 比 可 微 函数 更 平滑 ， 参 见 维基 百科 词 条 “Differentiable function”。 
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首先 用 平方 误差 作为 代价 函数 来 计算 网 络 的 误差 ， 如 公式 5-5 所 示 ”: 
sz-(-7(O) 
公式 5-5 ” 均 方 误差 
然后 利用 微 积 分 链 式 法 则 计算 复合 函数 的 导数 ， 如 公式 5-6 所 示 。 网 络 本 身 只 不 过 是 函数 的 
复合 〈 点 积 之 后 的 非 线性 激活 函数 )。 
(f(g(x) = F(x)= f(g(x)e'(x) 
公式 5-6 ” 链 式 法 则 
接 下 来 可 以 用 这 个 公式 计算 每 个 神经 元 上 激活 函数 的 导数 。 通 过 这 个 方法 可 以 计算 出 各 个 权 
重 对 最 终 误 差 的 贡献 ， 从 而 进行 适当 的 调整 。 
如 果 该 层 是 输出 层 ， 借 助 于 可 微 的 激活 函数 ， 权 重 的 更 新 比较 简单 ， 对 于 第 7 个 输出 ， 误 差 
的 导数 如 下 ”: 





























OF 
Am = -a 人 oyi(y)—f 0 ) yj-y,)) 
公式 5-7 误差 导数 
如 果 要 更 新 隐藏 层 的 权重 ， 则 会 稍微 复杂 一 点 儿 ， 如 公式 5-8 所 示 : 


OF 
Aw; = Bw =-ay(D ,6 wi)y (ly)) 


i leL 




















公式 5-8 前 一 层 的 导数 

在 公式 5-7 中 ,函数 fx) 表示 实际 结果 向 量 ，fx) 表示 该 向 量 第 j 个 位 置 上 的 值 ，y,、y 是 倒 
数 第 二 层 第 i 个 节点 和 输出 第 j 个 节点 的 输出 ， 连 接 这 两 个 节点 的 权重 为 w;， 误 差 代价 函数 对 
wj 求 导 的 结果 相当 于 用 a (学 习 率 ) 乘 以 前 一 层 的 输出 再 乘 以 后 一 层 代 价 函 数 的 导数 。 公 式 5-8 
中 6 表示 工 层 第 /个 节点 上 的 误差 项 ， 前 一 层 第 j 个 节点 到 工 层 所 有 的 节点 进行 加 权 求 和 ”。 

重要 的 是 要 明确 何 时 更 新 权重 。 在 计算 每 一 层 中 权重 的 更 新 时 , 需要 依赖 网 络 在 前 癌 传 播 中 
的 当前 状态 。 一 旦 计算 出 误差 , 我 们 就 可 以 得 到 网 络 中 各 个 权重 的 更 新 值 , 但 仍然 需要 回 到 网 络 
的 起 始 节 点 才能 去 做 更 新 。 否 则 ， 如 果 在 网 络 末 端 更 新 权重 ， 前面 计算 的 导数 将 不 再 是 对 于 本 输 
入 的 正确 的 梯度 。 另 外 , 也 可 以 将 权重 在 每 个 训练 样本 上 的 变化 值 记录 下 来 , 其 间 不 做 任何 更 新 ， 






































Q@ 该 误差 代价 函数 通常 带 一 个 常数 因子 /2， 男 外 ， 这 里 的 y 是 预测 值 ，ftx) 是 真实 值 ， 和 一 般 的 机 器 学 习 

损失 函数 的 表示 不 太一 样 ， 请 注意 区 分 。 一 一 译 者 注 

@) 这 里 的 代价 函数 有 常数 因子 12， 激 活 函 数 用 的 sigmoid 函数 y， 其 求 导 结 果 是 y(1y)。 译 者 注 

@ 想象 一 下 有 三 层 ， 前 一 层 包含 节点 i， 中 间 层 包含 节点 7 ,后 一 层 是 工 层 。L 层 上 所 有 节点 1 上 的 误差 项 
6 会 反 传 到 中 间 层 节点 7 上 ， 因 此 这 里 有 个 求 和 项 。 层 的 误差 项 可 以 通过 后 一 层 的 误差 项 反 疝 传播 得 
到 。 关 于 误差 项 的 求法 ， 可 以 参考 相关 书籍 。 一 一 译 者 注 
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等 训练 结束 后 再 一 起 更 新 ， 我 们 将 在 5.1.6 节 中 讨论 这 项 内 容 。 

接 下 来 将 全 部 数据 输入 网 络 中 进行 训练 , 得 到 每 个 输入 对 应 的 误差 ,然后 将 这 些 误差 反 向 传 
播 至 每 个 权重 , 根据 误差 的 总 体 变 化 来 更 新 每 个 权重 。 当 网 络 处 理 完全 部 的 训练 数据 后 ,误差 的 
反 向 传播 也 随 之 完成 ,我 们 将 这 个 过 程 称 为 神经 网 络 的 一 个 训练 周期 (epoch )。 我们 可 以 将 数据 
集 一 遍 又 一 遍地 输入 网 络 来 优化 权重 。 但 是 要 注意 ,网 络 可 能 会 对 训练 集 过 拟 合 ， 导 致 对 训练 集 
外 部 的 新 数据 无 法 做 出 有 效 的 预测 。 

在 公式 5-7 和 公式 5-8 中 ,a 表示 学 习 率 。 它 决定 了 在 一 个 训练 周期 或 一 批 数据 中 权重 中 误差 的 
修正 量 。 通 常 在 一 个 训练 周期 内 a 保持 不 变 , 但 也 有 一 些 复 杂 的 训练 算法 会 对 a 进行 自 适应 调整 ， 
以 加 快 训练 速度 并 确保 收敛 。 如 果 a 过 大 ,很 可 能 会 矫 枉 过 正 , 使 下 一 次 误差 变 得 更 大 ， 导 至 权重 
离 目标 更 远 。 如 果 a 设置 太 小 会 使 模型 收敛 过 慢 ， 更 糟糕 的 是 ， 可 能 会 陷入 误差 曲面 的 局 部 极 小 值 。 












































5.1.4 误差 曲面 


如 前 所 述 ， 训 练 神经 网 络 的 目标 是 通过 寻找 最 佳 参 数 ( 权重 ) 来 最 小 化 代价 函数 。 记 住 , 不 
是 针对 任何 单个 数据 的 误差 ， 而 是 最 小 化 所 有 误差 的 代价 。 
建立 对 这 个 问题 的 可 视 化 展示 ， 可 以 帮助 大 家 理解 在 调整 网 络 权重 时 到 底 在 做 什么 。 

星期， 均 方 误差 是 一 个 很 常用 的 代价 函数 ( 如 公式 5-5 所 示 )。 给 定 一 组 输入 和 一 组 预期 输 
出 ， 大 家 可 以 想象 一 下 ， 如 果 把 误差 当 作 可 能 的 权重 的 函数 ， 以 此 绘制 一 张 图 , 则 图 中 存在 一 个 
最 接近 零 的 点 ， 这 个 点 就 是 大 家 寻找 的 最 小 值 一 一 模型 在 这 个 点 上 误差 最 小 。 

这 个 最 小 值 将 是 针对 给 定 训 练 样本 得 到 最 优 和 输出 的 一 组 权重 集合 。 大 家 会 看 到 它 经 常 被 表示 
成 一 个 三 维 的 碗 状 图 形 ， 其 中 两 维 表示 权重 向 量 , 第 三 维 表示 误差 ( 如 图 5-8 所 示 )。 这 是 个 简 
化 版 的 描述 ， 不 过 其 表示 的 含义 在 高 维 空间 ( 多 于 两 个 权重 ) 上 同样 适用 。 
































给 定 权重 对 的 误差 


























图 5-8 ” 屿 误差 曲面 
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类 似 地 , 大 家 也 可 以 针对 训练 集 上 所 有 输入 的 所 有 可 能 的 权重 的 函数 绘制 出 误差 曲面 。 这 里 
需要 稍微 调整 一 下 误差 轴 数 , 在 给 定 权重 集合 的 情况 下 ， 聚 合 所 有 输入 前 向 传播 产生 的 误差 。 在 
本 例 中 ， 使 用 均 方 误差 作为 > 轴 《如 公式 5-5 所 示 )。 

这 样 可 以 得 到 一 个 具有 最 小 值 的 误差 曲面 , 它 由 权重 集合 决定 , 这 组 权重 描述 了 一 个 最 适合 
整个 训练 集 的 模型 。 





5.1.5 不 同类 型 的 误差 曲面 


这 个 可 视 化 表示 什么 含义 呢 ? 算法 在 每 个 周期 的 训练 中 使 用 梯度 下 降 算 法 来 最 小 化 误差 。 每 
次 在 某 个 方向 上 对 权重 的 调整 都 有 可 能 减 小 下 次 的 误差 。 如 果 是 凸 误差 曲 面 , 那 简直 太 棒 了 。 这 
好 比 站 在 滑雪 坡 上 环顾 四 周 ， 看 看 哪 条 路 是 向 下 的 ， 然 后 就 走 这 条 路 ! 

但 误差 函数 所 在 的 曲面 并 非 总 是 一 个 平滑 的 碗 。 误差 曲面 可 能 有 许多 坑坑洼洼 , 这 就 是 非 凸 
误差 曲面 (如 图 5-9 所 示 )。 而 且 就 像 滑雪 一 样 ， 如 果 这 些 坑 足 够 大 ， 就 有 可 能 会 陷 进去 ， 从 而 
无 法 到 达 坡 底 。 























的 随机 权重 








给 定 权 重 对 的 误差 





Vy 
Ks 
权重 1 


图 5-9 非 凸 误差 曲面 


5-9 仍然 用 二 维 输入 来 表示 权重 。 不 过 ,这 和 10 维 、50 维 、1000 维 输入 在 概念 上 是 一 样 
的 。 在 高 维 空间 中 ,可视化 已 经 不 具有 意义 ， 所 以 我 们 只 能 相信 和 数学。 一旦 开始 使 用 神经 网 络 ， 
误差 曲面 的 可 视 化 就 变 得 不 再 重要 ,大 家 可 以 在 训练 过 程 中 观察 ( 或 绘制 ) 误差 或 其 他 相关 的 指 
标 来 得 到 相同 的 信息 ， 看 它 是 否 逐 渐 趋 于 0， 从 中 看 出 网 络 是 否 在 做 正确 的 优化 。 不 过 这 些 3D 
图 形 对 于 理解 整个 过 程 还 是 有 一 定 帮 助 的 。 

那么 非 凸 误差 空间 呢 ? 那些 坑坑洼洼 难道 不 是 问题 吗 ?” 当然 是 问题 。 在 这 种 情况 下 , 模型 优 
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化 的 结果 取决 于 权重 的 随机 初始 值 , 由 于 无 法 从 局 部 极 小 值 中 走出 来 ， 当 训练 结束 时 ,不 同 的 权 
重 初始 值 可 能 会 导致 模 型 收敛 于 完全 不 同 的 结 
在 更 高 维 的 空间 中 ， 网 络 依然 会 伴随 着 局 部 极 小 值 问题 。 





5.1.6 ”多 种 梯度 下 降 算 法 


到 目前 为 止 , 我 们 一 直 是 把 所 有 训练 样本 的 误差 聚合 起 来 然后 再 做 梯度 下 降 , 这 种 训练 方法 
称 为 批量 学 习 ( batch learning )。 一 批 是 训练 数据 的 一 个 子 集 。 但 是 在 批量 学 习 中 误差 曲面 对 于 
整个 批 是 静态 的 ， 如果 从 一 个 随机 的 起 始点 开始 ,得 到 的 很 可 能 是 某 个 局 部 极 小 值 ， 从 而 无 法 看 
到 其 他 的 权重 值 的 更 优 解 。 这 里 有 两 种 方法 来 避 开 这 个 陷阱 。 

第 一 种 方法 是 随机 梯度 下 降 法 。 在 随机 梯度 下 降 中 ， 不 用 去 查看 所 有 的 训练 样本 ， 而 是 在 输入 
每 个 训练 样本 后 就 去 更 新 网 络 权 重 。 在 这 个 过 程 中 ， 每 次 都 会 重新 排列 训练 样本 的 顺序 ， 这样 将 为 
每 个 样本 重新 绘制 误差 曲面 ， 由 于 每 个 相 异 的 输入 都 可 能 有 不 同 的 预期 答案 ， 因 此 大 多 数 样本 的 误 
差 曲面 都 不 一 样 。 对 每 个 样本 来 说 ， 仍 然 使 用 梯度 下 降 法 来 调整 权重 。 不 过 不 用 像 之 前 那样 在 每 个 
训练 周期 结束 后 聚合 所 有 误差 再 做 权重 调整 ， 而 是 针对 每 个 样本 都 会 去 更 新 一 次 权重 。 其 中 的 关键 
点 是 ， 每 一 步 都 在 向 假定 的 极 小 值 前 进 〈 不 是 所 有 路 径 都 通 往 假定 的 极 小 值 )。 

使 用 正确 的 数据 和 超 参 数 , 在 向 这 个 波动 误差 曲面 的 各 个 最 小 值 前 进 时 ,可 以 更 容易 地 得 到 
全 局 极 小 值 。 如 果 模 型 没有 进行 适当 的 调 优 ， 或 者 训练 数据 不 一 致 ， 将 导致 原 地 踏步 ， 模 型 无 法 
收敛 ,也 学 不 会 任何 东西 。 不 过 在 实际 应 用 中 ,随机 梯度 下 降 法 在 大 多 数 情况 下 都 能 有 效 地 避免 
局 部 极 小 值 。 这 种 方法 的 缺点 是 计算 速度 比较 慢 。 计算 前 向 传播 和 反 向 传播 , 然后 针对 每 个 样本 
进行 权重 更 新 ， 这 在 本 来 已 经 很 慢 的 计算 过 程 的 基础 上 又 增加 了 很 多 时 间 开 销 。 

第 二 种 方法 ,也 是 更 常见 的 方法 ， 是 小 批量 学 习 。 在 小 批量 学 习 中 , 会 传人 训练 集 的 一 个 小 
的 子 集 , 并 按照 批量 学 习 中 的 误差 聚合 方法 对 这 个 子 集 对 应 的 误差 进行 聚合 。 然 后 对 每 个 子 集 按 
批 将 其 误差 进行 反 向 传播 并 更 新 权重 。 下 一 批 会 重复 这 个 过 程 ， 直 到 训练 集 处 理 完成 为 止 , 这 就 
重新 构成 了 一 个 训练 周期 。 这 是 一 种 折 中 的 办 法 ， 它 同时 具有 批量 学 习 (快速 ) 和 随机 梯度 下 降 
(具有 弹性 ) 的 优点 。 

尽管 反 向 传播 算法 如 何 工 作 的 细节 很 吸引 人 ， 而 且 非 常 重要 ， 不 过 正如 前 文 所 述 ， 这 超出 
了 本 书 的 范围 。 大 家 可 以 通过 误差 曲面 对 其 有 一 个 形象 的 认识 。 神 经 网 络 沿 着 曲面 的 斜坡 往 下 
走 ， 走 得 越 快 越 好 ， 直 到 抵达 到 硫 的 底部 。 在 一 个 给 定 的 点 上 ， 环 顾 四 周 ， 找 一 条 最 陡 的 路 下 
坡 〈 如 果 恶 高 的 话 这 可 能 不 是 个 好 景象 )。 更 进一步 批量 学 习 、 小 批量 学 习 或 随机 梯度 下 降 
法 )， 再 举目 四 顾 ， 找 到 最 陡 的 路 径 ， 然 后 往 那个 方向 走 ， 很 快 大 家 就 能 抵达 山谷 底部 滑雪 小 
屋 的 火炉 旁边 了 。 



























































































































































5.1.7 Keras: 用 Python 实现 神经 网 络 
用 原生 Python 来 编写 神经 网 络 是 一 个 非常 有 趣 的 尝试 ， 而 且 可 以 帮助 大 家 理解 神经 网 络 中 
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的 各 种 概念 ， 但 是 Python 在 计算 速度 上 有 了 明显 缺陷 ， 即 使 对 于 中 等 规模 的 网 络 ， 计 算 量 也 会 变 
得 非常 坏 手 。 不 过 有 许多 Python 库 可 以 用 来 提高 运算 速度 , 包括 PyTorch、Theano、TensorFlow 和 
Lasagne 等 。 本 书 中 的 例子 使 用 Keras。 

Keras 是 一 个 高 级 封装 器 ， 封 装 了 面向 Python 的 API。API 接口 可 以 与 3 个 不 同 的 后 端 库 相 




















占 和 


ZA\y 


兼容 : Theano、 谷 歌 的 TensorFlow 和 微软 的 CNTK。 这 几 个 库 都 在 底层 实现 了 基本 的 神经 网 络 


单元 和 高 度 优化 的 线性 代数 库 ， 可 以 用 于 处 理 点 积 ， 以 支持 高 效 的 神经 网 络 和 矩阵 乘法 运算 。 


我 们 以 简单 的 异 或 问题 为 例 ， 看 看 如 何 用 Keras 来 训练 这 个 网 络 ， 如 代码 清单 5-4 所 示 。 


代码 清单 5-4 ”Keras 异 或 网 络 







































































>>> import numpy as np Kera 的 基础 模型 类 
>>> from keras.models import Sequential Dense 是 神经 元 的 全 连接 层 
>>> from keras.layers import Dense, Activation 
>>> from keras.optimizers mp Om SED 随机 梯度 下 降 ， Keras 中 还 有 
>>> # Our examples for an exclusive OR. 些 其 他 优化 器 
>>> x _ train = np.array([[0，0]， i 

0, 1], 
… Ly Oj x_train 是 二 维特 征 向 量 表示 的 训练 样本 列表 
dy: ,|e) 
>>> y train = np.array ([[0], 

1], y_train 是 每 个 特征 向 量 样 本 对 应 的 目标 输出 值 

汪 ] 3 
5 0]]) < 一 一 
>>> model = Sequential () 全 连接 隐藏 层 包含 10 个 神经 元 
>>> num neurons = 10 
>>> model.add (Dense (num neurons, input dim=2)) < 
>>> model.add (Activation('tanh')) 
>>> model.add (Dense (1)) Sa A Ew A 

三 | i 经 2 士 卢 且 

>>> model.add (Activation('sigmoid')) 输出 层 包含 一 个 神经 元 ， 输 出 结果 是 二 分 类 值 (0 或 1) 
>>> model1.summary () 
Layer (type) Output Shape Param # 
dense 18 (Dense) (None, 10) 30 
activation 6 (Activation) (None, 10) 0 
dense 19 (Dense) (None, 1) 11 
activation 7 (Activation) (None, 1) 0 
Total params: 41.0 
Trainable params: 41.0 input_dim 仅 在 第 一 层 中 使 用 ， 后 面 的 其 他 层 会 自动 计算 前 


Non-trainable params: 0.0 


model .summary () 提 伐 
算 一 下 : 10 个 神经 元 ， 





t 了 网 络 参 数 及 各 阶段 权重 数 〈 
每 个 神经 元 有 3 个 权重 ,其 中 有 两 个 是 输入 向 量 的 权重 ( 输入 向 量 中 的 每 个 

















一 层 输出 
征 向 量 ， 


的 














形状 ， 这 个 例子 中 输入 的 XOR 样本 是 二 维特 
因此 input_dim 设置 为 2 


Param \# ) 的 概览 








。 我 们 可 以 快速 计 











值 对 应 一 个 权重 )， 还 有 一 个 是 偏 置 对 应 的 权重 ， 所 以 一 共有 30 个 权重 需要 学 习 。 输 出 层 中 有 10 个 
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权重 ,分 别 与 第 一 层 的 10 个 神经 元 一 一 对 应 ， 再 加 上 1 个 偏 置 权重 ， 所 以 该 层 共 有 11 个 权重 。 
下 面 的 代码 可 能 有 点 儿 不 容易 理解 : 
>>> sgd = SGD (lr=0.1) 


>>> model.compile (loss='binary crossentropy', optimizer=sgd, 
metrics=['accuracy']) 


SGD 是 之 前 导入 的 随机 梯度 下 降 优 化 器 ， 模 型 用 它 来 最 小 化 误差 或 者 损失 。Ir 是 学 习 速 率 ， 
与 每 个 权重 的 误差 的 导数 结合 使 用 , 数值 越 大 模型 的 学 习 速 度 越 快 , 但 可 能 会 使 模型 无 法 找到 全 
局 极 小 值 ， 数 值 越 小 越 精确 ,但 会 增加 训练 时 间 ， 并 使 模型 更 容易 陷入 局 部 极 小 值 。 损 失 函 数 本 
身 也 定义 为 一 个 参数 , 在 这 里 用 的 是 binary_crossentropy。metrics 参数 是 训练 过 程 中 输 
出 流 的 选项 列表 。 用 compile 方法 进行 编译 ,此 时 还 未 开始 训练 模型 ， 只 对 权重 进行 了 初始 化 ， 
大 家 也 可 以 尝试 一 下 用 这 个 随机 初始 状态 来 预测 ， 当 然 得 到 的 结果 只 是 随机 猜测 ; 

>>> model.predict (x train) 

[[ 0.5 ] 

0.43494844 


[ | 
[ 0.50295198] 
[ 0.42517585] 








] 

predict 方法 将 给 出 最 后 一 层 的 原始 输出 ， 在 这 个 例子 中 是 由 sigmoid 函数 生成 的 。 

之 后 再 没什么 好 写 的 了 , 但 是 这 里 还 没有 关于 答案 的 任何 知识 , 它 只 是 对 输入 使 用 了 随机 权 
重 。 接 下 来 可 以 试 着 进行 训练 ， 如 代码 清单 5-5 所 示 。 





代码 清单 5-5 ”用 异 或 训练 集 进行 模型 训练 





























从 这 里 开始 训 
model.fit(x train, y train, epochs=100) 练 模型 
Epoch 1/100 
4/4 [==============================] - 0s - loss: 0.6917 - acc: 0.7500 
Epoch 2/100 
4/4 [==============================] - 0s - loss: 0.6911 - acc: 0.5000 
Epoch 3/100 
4/4 [==============================] - 0s - loss: 0.6906 - acc: 0.5000 
Epoch 100/100 
4/4 [==============================] - 0s - loss: 0.6661 - acc: 1.0000 




















提示 在 第 一 次 训练 时 网 络 可 能 不 会 收敛 。 第 一 次 编译 可 能 以 随机 分 布 的 参数 结束 ， 导 致 难以 或 
者 不 能 得 到 全 局 极 小 值 。 如 果 遇 到 这 种 情况 ， 可 以 用 相同 的 参数 再 次 调用 model .fit， 或 者 添 
加 更 多 训练 周期 ， 看 看 网 络 能 否 收敛 。 或 者 也 可 以 用 不 同 的 随机 起 始点 来 重新 初始 化 网 络 ， 然 后 
再 次 尝试 fit。 如 果 使 用 后 面 这 种 方法 ,请 确保 没有 设置 随机 种 子 ， 否则 只 会 不 断 重复 同样 的 实 
验 结果 。 


当 网 络 一 遍 又 一 遍地 学 习 这 个 小 数据 集 时 ， 它 终于 和 弄 明白 了 这 是 怎么 回 事 。 它 从 样本 中 “学 
会 ”了 什么 是 异 或 ! 这 就 是 神经 网 络 的 神奇 之 处 ， 它 将 指导 大 家 学 习 接 下 来 的 儿童 : 
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>>> model.predict classes (x train)) 








4/4 [==============================] - 0s 
[[0] 
| 
| 
0]] 
>>> model.predict (x train)) 
4/4 [==============================] - 0s 
[[ 0.0035659 ] 
O09 9123639] 
0.99285167] 
0.00907462]] 
在 这 个 经 过 训练 的 模型 上 再 次 调用 predict (和 predict _classes ) 会 产生 更 好 的 结 
果 。 它 在 这 个 小 数据 集 上 获得 了 100% 的 精确 度 。 当 然 ， 精 确 率 并 不 是 评估 预测 模型 的 最 佳 标 
准 ， 但 对 这 个 小 例子 来 说 完全 可 以 说 明 问题 。 接 下 来 在 代码 清单 5-6 中 展示 了 如 何 保存 这 个 异 





或 模型 。 


代码 清单 5-6 ”保存 训练 好 的 模型 





>>> import h5py 


>>> model structure = model.to json() , 
用 Keras 的 辅助 方法 将 网 络 结构 


>>> with open ("basic model.json", "w") as json file: 导出 为 JSON blob 类 型 以 备 后 用 
json file.write (model structure) 


>>> model.save weights ("basic weights.h5") 
训练 好 的 权重 必须 被 单独 保存 。 第 一 部 分 只 保存 网 络 结构 。 在 后 面 重 
新 加 载 网 络 结构 时 必须 对 其 重新 实例 化 


同样 也 有 对 应 的 方法 来 重新 实例 化 模型 ,这样 做 预测 时 不 必 再 去 重新 训练 模型 。 虽然 运行 这 
个 模型 只 需要 几 秒 , 但 是 在 后 面 的 章节 中 , 模型 的 运行 时 间 将 会 快速 增长 到 以 分 钟 、 小 时 甚至 天 
为 单位 ， 这 取决 于 硬件 性 能 和 模型 的 复杂 度 ， 所 以 请 准备 好 ! 






































hel 
| 
































5.1.8 展望 


随 着 神经 网 络 在 整个 深度 学 习 领 域 的 广泛 应 用 , 在 这 些 系 统 的 细节 上 展开 了 大 量 的 研究 ( 并 
将 继续 研究 下 去 ): 

图 各 种 激活 函数 (如 sigmoid 、 修 正 线性 单元 和 双 曲 正切 等 ); 
选择 一 个 适合 的 学 习 率 来 调整 误差 的 影响 ; 
通过 使 用 动量 模型 动态 调整 学 习 率 来 快速 找到 全 局 极 小 值 ; 
使 用 dropout， 在 给 定 的 训练 路 径 上 随机 选择 一 组 权重 丢弃 ， 防 止 模型 过 拟 合 ; 
权重 正则 化 ， 对 权重 进行 人 为 修正 ， 避 免 某 个 权重 相 比 于 其 余 权 重 过 大 或 过 小 〈 这 是 另 
一 种 避免 过 拟 合 的 策略 )。 
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这 个 列表 之 后 将 会 不 断 拓展 。 


5.1.9 ” 归 一 化 : 格式 化 输入 


申 经 网 络 接收 的 输入 是 向 量 形式 , 无 论 数据 内 容 是 什么 , 神经 网 络 都 能 执行 运算 , 不 过 其 中 
有 一 点 需要 注意 , 那 就 是 输入 归 一 化 。 这 是 许多 机 器 学 习 模 型 的 真 诺 。 假 设 有 一 个 房屋 分 类 的 例 
子 ， 预 测 在 市 场 上 的 销售 情况 。 现 在 只 有 两 个 数据 点 : 卧室 数量 和 最 终 售 价 。 这 个 数据 可 以 表示 
为 一 个 向 量 。 例 如 ， 以 27.5 万 美元 成 交 的 一 套 两 居室 的 房子 可 以 表示 为 : 


input vec = [2, 275000] 


当 网 络 在 这 个 数据 中 进行 学 习 时 , 在 第 一 层 中 , 为 了 与 取 值 较 大 的 价格 平等 竞争 ， 卧 室 对 应 
的 权重 必须 快速 增 大 。 因 此 ， 和 常见 的 做 法 是 将 数据 归 一 化 ,使 不 同样 本 中 的 每 个 元 素 都 能 保留 有 
效 信息 。 归 一 化 也 能 确保 每 个 神经 元 在 具有 相同 取 值 范围 的 输入 值 下 工作 , 同一 个 输入 向 量 中 不 
同 元 素 的 输入 范围 相同 。 有 几 种 常用 的 归 一 化 方法 ， 如 均值 归 一 化 、 特 征 缩放 和 变异 系数 。 最 终 
目标 是 在 不 丢失 信息 的 情况 下 ， 将 样本 中 每 个 元 素 的 取 值 范围 调整 为 [-1, 1] 或 [0, 1]。 

在 NLP 中 可 以 不 必 过 于 担心 这 一 点 , 因为 TF-IDF、 独 热 编码 和 Word2vec ( 大 家 很 快 就 会 看 
到 ) 已 经 做 过 归 一 化 了 。 如 果 输 入 特征 向 量 没有 经 过 归 一 化 , 例如 使 用 原始 词 频 或 计数 时 ,就 需 
要 牢记 这 一 点 。 

最 后 谈 谈 术语 。 关 于 感知 机 、 多 神经 元 层 、 深 度 学 习 的 定义 并 没有 达成 太 多 共识 , 但 是 我 们 
可 以 看 到 ， 根 据 是 否 必须 使 用 激活 函数 的 导数 来 适当 更 新 权重 可 以 方便 地 区 分 感知 机 和 神经 网 
络 。 在 这 一 背景 下 ， 本 书 主要 使 用 神经 网 络 和 深度 学 习 ， 由 于 “感知 机 ”一 词 在 历史 中 的 重要 地 
位 ， 我 们 也 保留 了 这 个 词 。 
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5.2 小 结 


代价 函数 最 小 化 是 一 种 学 习 路 径 。 

反 向 传播 算法 是 神经 网 络 的 学 习 手 段 。 

权重 对 模型 误差 的 贡献 与 其 更 新 量 直接 相关 。 
神经 网 络 的 核心 是 优化 絮 。 
监控 训练 过 程 中 误差 的 逐步 降低 过 程 ， 以 避 开 陷阱 〈 局 部 极 小 值 )。 
Keras 有 助 于 简化 神经 网 络 中 的 数学 运算 。 
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本 章 主 要 内 容 

图 词 向 量 的 创建 

图 预 训 练 模型 的 使 用 

图 用 词 向 量 推理 解决 实际 问题 
图 词 向 量 可 视 化 

图 词 谈 入 的 神奇 用 法 





最 近 NLP 领域 中 最 令 人 兴奋 的 进展 之 一 是 词 向 量 的 “发 现 ”。 





本 章 将 帮助 大 家 理解 什么 是 词 


向 量 以 及 词 向 量 的 一 些 神奇 用 法 。 我 们 将 学 着 去 解释 前 儿童 中 未 曾 提 及 的 词义 的 模糊 特性 和 语义 





的 微妙 之 处 。 








在 前 几 章 中 ,我们 忽略 了 词 附近 的 上 下 文 信息 ， 包 括 每 个 词 周 于 的 其 他 词 、 相 邻 词 对 该 词 词 
义 的 影响 , 以 及 词 之 间 的 关系 对 句子 整体 语义 的 影响 。 词 袋 模型 是 将 文档 中 所 有 词 混 在 一 起 进行 统 
计 。 在 本 章 中 ,我 们 将 从 少量 词 的 邻 域 中 创建 更 小 的 词 袋 ， 一 般 会 少 于 10 个 词 条 ， 同 时 确保 这 些 














邻 域 的 语义 不 会 溢出 到 相 邻 的 句子 中 。 这 个 过 程 有 助 于 集中 在 相关 词 上 进行 词 向 量 训练 。 


这 个 新 的 词 癌 量 将 能 够 识别 同义词 、 反 义 词 或 同类 别 的 词 ， 女 





0 人 、 动 物 、 地 点 、 植 物 、 名 字 


或 概念 等 。 我 们 在 第 4 章 中 用 潜在 语义 分 析 做 过 类 似 的 事情 , 但 是 对 词 邻 域 的 严格 限制 也 直接 影 








响 了 词 向 量 的 精确 率 , 词 、n-gram 和 文档 的 潜在 语义 分 析 并 没有 捕捉 到 词 的 所 有 字面 含义 , 更 不 














词 向 量 词 向 量 是 对 词语 义 或 食 义 的 数值 向 量 表示 ,包括 字面 意义 和 和 
词 的 内 涵 ， 如 “peopleness”( 人 )、“animalness”( 动物 )、“placeness” 
甚至 “conceptness”( 概念 )。 将 所 有 这 些 含义 结合 起 来 构成 一 个 稠密 
这 个 稠密 向 量 支 持 查询 和 座 辑 推理 。 


6.1 语义 查询 与 类 比 





用 说 隐 含 或 隐藏 含义 了 。 并 且 ， 由 于 LSA 过 大 的 词 袋 ， 词 的 部 分 含义 也 丢失 了 。 





隐 含 意义 。 词 向 量 可 以 捕捉 到 
(平静 ) “thingness”( 存在 )， 
(没有 零 值 ) 的 浮 点 数 向 量 。 


那么 , 这 样 的 词 向 量 有 什么 作用 呢 ? 你 有 没有 试 过 回忆 某 位 名 人 的 名 字 , 但 对 他 们 只 有 一 个 
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大 致 的 印象 ， 例 如 : 


She invented something to do with physics in Europe in the early 20th century. 
(20 世纪 初 ， 她 在 欧洲 发 明了 一 些 与 物理 学 有 关 的 东西 。) 


大 家 要 找 的 是 玛丽 : 居 里 ( Marie Curie )， 如 果 在 Google 或 Bing 中 输入 这 个 句子 ， 可 能 得 
不 到 直接 的 答案 。Google 搜索 可 能 只 会 给 出 一 些 著 名 物理 学 家 的 链接 ， 里 面包 括 男 人 和 女人 。 
大 家 需要 浏览 几 页 才能 找到 想 要 的 答案 。 但 是 一 旦 找到 了 “Marie Curie”，Google 或 Bing 会 记 下 
这 个 结果 ， 当 大 家 下 次 再 找 科 学 家 的 时 候 ， 它 们 可 能 就 能 提供 更 好 的 搜索 结果 。 

使 用 词 向 量 ， 可 以 将 “woman”“Europe” "physics”“scientist” “famous” 等 词 的 含义 组 合 起 
来 搜索 词 或 名 字 ， 搜 索 结 果 会 更 接近 要 查找 的 “Marie Curie”。 所 要 做 的 只 是 把 这 些 词 向 量 加 起 来 : 


>>> answer Vector = wv['woman'] + wv['Europe'] + wv[lphysics'] +\ 









































wv['scientist' 
在 本 章 中 ,我们 将 展示 如 何 查 询 这 个 问题 ,以 及 如 何 从 词 向 量 中 去 除 性 别 偏向 ,并 使 用 该 词 
向 量 计算 结果 : 


>>> answer Vector = wv['woman'] + wv['Europe'] + wv[lphysics'] +\ 
wv['scientist'"' -wv['male'] - 2 * wv['man'] 


通过 词 向 量 , 我 们 可 以 从 “woman” 中 去 掉 “man”。 














类 比 问题 

如 果 把 问题 重新 表述 成 一 个 类 比 问题 会 如 何 呢 ? 就 像 下 面 这 样 : 

Who is to nuclear physics what Louis Pasteur is to germs? 

( 谁 对 核 物理 的 贡献 就 像 路 易 斯 ， 巴 斯 德 对 细菌 的 贡献 一 样 ? ) 

对 于 这 种 问题 ，Google、Bing 甚至 DuckDuckGo 都 爱 英 能 助 ”。 但 是 有 了 词 向 量 ， 解 决 方法 
就 会 很 简单 ， 只 需要 从 “Louis Pasteur” 中 去 除 “germs”， 然 后 加 上 “physics”: 

>>> answer Vector = wv['Louis Pasteur'] - wv['germs'] + wv[l'physics'] 

如 果 大 家 对 那些 不 相关 领域 中 人 物 之 间 的 更 复杂 的 类 比 感 兴趣 , 如 音乐 家 和 科学 家 , 那么 也 
可 以 这 样 做 : 

Who is the Marie Curie of music? 


( 谁 是 音乐 界 的 玛丽 ， 居 里 ? ) 
或 者 


























J 至 少 在 我 们 研究 本 书 时 它 是 这 么 所 做 的 。 我 们 必须 使 用 私有 浏览 器 窗口 来 确保 你 的 搜索 结果 会 和 我 们 的 
相似 。 
@) 不 相信 的 话 你 可 以 去 试 试 。 
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Marie Curie is to science as who is to music? 

( 谁 在 音乐 界 的 地 位 ， 就 如 同 玛丽 ， 居 里 在 科学 界 的 地 位 一 样 ? ) 

大 家 能 想 出 如 何 使 用 词 向 量 的 数学 运算 来 解决 这 些 问题 吗 ? 

大 家 可 能 在 SAT、ACT 或 GRE 等 标准 化 考试 的 英语 类 比 部 分 见 过 类 似 的 问题 。 有 时 可 以 用 
正式 的 数学 符号 表示 ， 如 下 所 示 : 





























MARIE CURIE : SCIENCE :: ? ; MUSIC 
这 样 是 不 是 能 更 容易 猜 出 对 应 的 词 向 量 数学 运算 了 ? 下 面 是 一 种 表示 : 
>>> wv[l'Marie Curie'] - wv['science'] + wv['music'] 


除了 人 和 职业 ， 还 可 以 回答 一 些 类 似 的 问题 ， 如 运动 队 和 城市 : 


The Timbers are to Portland as what is to Seattle? 


( 波 特 兰 的 伐木 者 队 对 应 于 西雅图 的 什么 队 ? ) 
在 标准 化 考试 中 这 个 问题 的 表示 如 下 : 

















TIMBERS : PORTLAND :: ? : SEATTLE 
不 过 更 普遍 的 情况 是 ， 在 标准 化 考试 中 用 的 是 英语 词汇 表 中 的 词 ， 问 的 问题 也 不 太 有 趣 : 
WALK : LEGS :: ? : MOUTH 
或 者 
ANALOGY : WORDS :: ? : NUMBERS 























所 有 这 些 欲 言 难 吐 的 问题 ,即使 不 是 选择 题 ， 对 词 向 量 来 说 也 是 小 菜 一 碟 。 但 如 果 让 大 家 自 
己 去 记 住 这 些 名 字 或 词 ， 那 么 就 算是 提供 了 A、B、C、D 的 选项 ， 也 是 很 难 的 。 现 在 有 了 词 向 
量 ，NLP 就 可 以 解决 这 些 难 题 。 

词 向 量 可 以 回答 这 些 模糊 的 问题 并 解决 类 比 问题 。 只 要 答案 的 词 向 量 在 词 向 量 的 词汇 表 中 ， 
词 向 量 就 能 记 住 这 些 词语 名 字 。 即 使 对 那些 无 法 以 搜索 查询 或 类 比 形式 提出 的 问题 , 词 向 量 也 能 
提供 有 效 的 解决 方案 。 在 6.2.1 节 中 大 家 会 学 到 词 向 量 中 一 些 与 查询 无 关 的 数学 知识 。 
































6.2 词 向 量 


2012 年 ， 微 软 实习 生 Thomas Mikolov 发 现 了 一 种 用 一 定 维度 的 向 量 表示 词 的 含义 的 方法 ”。 
Mikolov 训练 了 一 个 神经 网 络 来 预测 每 个 目标 词 附 近 的 共 现 词 。2013 年 ，Mikolov 和 他 的 队友 在 

















J 谷歌 的 预 训练 词 向 量 模 型 是 从 千 亿 级 词 的 新 闻 流 中 训练 得 到 的 , 一 般 情况 下 大 家 使 用 的 词 都 会 在 这 个 词 
汇 表 中 ， 除 非 这 个 词 是 2013 年 以 后 发 明 的 。 

@) 词 向 量 一 般 有 100 到 500 维 ， 取 决 于 训练 它们 的 语料库 中 的 信息 广度 。 

@) 这 只 是 一 个 单 层 神经 网 络 ,所 以 几乎 任何 线性 机 器 学 习 模型 都 可 以 胜任 ， 如 对 率 回归 、 和 截断 的 SVD、 线 
性 判别 分 析 和 朴素 贝 叶 斯 等 。 


A 
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谷歌 发 布 了 创建 这 些 词 向 量 的 软件 ， 称 为 Word2vec 。 

Word2vec 仅仅 基于 大 型 未 标记 文本 语料库 来 学 习 词 的 含义 ,而 不 需要 标记 Word2vec 词汇 表 中 的 词 。 
我 们 不 需要 告诉 Word2vec 算法 玛丽 ， 居 里 是 一 个 科学 家 、 伐 木 者 是 一 个 足球 队 、 西 雅 图 是 一 个 城市 、 
波 特 兰 是 俄 勒 四 州 和 缅 因 州 的 一 个 城市 ,也 不 需要 告诉 Word2vec 足球 是 一 项 运动 、 一 个 团队 是 一 群 人 ， 
或 者 城市 既是 地 点 也 是 社区 。Word2vec 完全 可 以 靠 自己 学 到 更 多 的 知识 ! 大 家 需要 做 的 只 是 准备 一 个 
足够 大 的 语料库 ， 其 中 在 科学 、 足 球 或 城市 相关 的 词 附近 提 到 玛丽 ， 居 里 、 伐 木 者 从 和 波 特 兰 。 

正 是 Word2vec 这 种 无 监督 的 特性 使 它 无 比 强大 ， 因 为 世界 上 充满 了 未 标记 、 未 分 类 、 非 结 
构 化 的 自然 语言 文本 。 

无 监督 学 习 和 监督 学 习 是 两 种 截然 不 同 的 机 器 学 习 方 法 。 


监督 学 习 

在 监督 学 习 中 ， 必 须 对 训练 数据 进行 某 种 标注 。 例 如 ， 第 4 章 中 短 消息 上 的 垃圾 信息 分 类 标签 就 是 
一 种 标注 。 又 如 ，Twitter 上 点 赞 数量 的 量化 值 也 是 一 种 标注 。 监 督学 习 是 大 多 数 人 想到 机 器 学 习 时 想到 
的 学 习 方 法 。 监 督学 习 只 有 在 能 够 度量 预期 输出 ( 标签 ) 与 其 预测 值 之 间 的 差异 时 ， 模 型 才能 变 得 更 好 。 


相反 ， 无 监督 学 习 使 机 器 能 够 直接 从 数据 中 学 习 ， 而 不 需要 人 类 的 任何 帮助 。 训 练 数据 不 需要 
人 工 组 织 、 结 构 化 或 标注 。 所 以 像 Word2vec 这 样 的 无 监督 学 习 算法 对 自然 语言 文本 来 说 非常 完美 。 


无 监督 学 习 

在 无 监督 学 习 中 ， 同 样 也 是 训练 模型 去 执行 某 种 任务 ， 但 是 没有 任何 任务 标注 ， 只 有 原始 数据 。 聚 类 算 
法 ， 如 Xk 均值 或 DBSCAN 就 属于 无 监督 学 习 ， 像 主 成 分 分 析 ( PCA ) 和 -分 布 领域 嵌入 算法 ( t=-Distributed 
Stochastic Neighbor Embpedding，t-SNE ) 这 样 的 降 维 算法 也 属于 无 监督 机 器 学 习 技术 。 在 无 监督 学 习 中 ， 
模型 从 数据 点 自身 的 关系 中 去 发 现 模式 。 通 过 向 无 监督 模型 投入 更 多 的 数据 ， 它 可 以 变 得 更 智能 ( 更 精确 )。 


教 网 络 预测 句子 中 目标 词 附近 的 词 ， 而 不 是 通过 带 有 词 含义 的 标签 来 直接 学 习 目 标 词 的 含 
义 。 在 这 个 意义 上 ， 也 可 以 算是 有 标注 : 竺 预测 的 相 邻 词 。 不 过 这 些 标注 来 自 数据 集 本 身 ， 不 需 
要 手工 标注 ， 因 此 Word2vec 训练 算法 确实 是 一 个 无 监督 学 习 算 法 。 

使 用 无 监督 训练 技术 的 另 一 个 领域 是 时 间 序 列 建 模 。 时 间 序 列 模型 通常 被 训练 在 一 个 序列 中 
基于 前 一 个 窗口 的 值 预测 下 一 个 值 。 时 间 序 列 问题 与 自然 语言 问题 在 很 多 方面 非常 相似 , 它们 处 
理 的 都 是 有 序 值 ( 词 或 数值 )。 

预测 本 身 并 不 是 Word2vec 的 关键 ,预测 只 是 达到 目的 的 一 种 手段 。 大 家 真正 关心 的 是 它 的 内 
部 表示 ， 即 Word2vec 在 生成 这 些 预测 过 程 中 逐渐 构建 的 向 量 。 与 第 4 章 中 的 潜在 语义 分 析 和 潜在 
狄 利克 雷 分 布 中 的 词 -主题 问 量 不 同 ,，Word2vec 词 癌 量 表示 能 够 捕 提 更 丰富 的 目标 词 含义 (语义 )。 

注意 通过 使 用 低 维 内 部 表示 来 重新 预测 输入 的 模型 称 为 自 编码 器 。 这 听 起 来 有 点 儿 奇 怪 , 就 像 是 让 机 

器 把 大 家 的 提问 重新 传 回 来 ， 而 且 在 提问 时 它 还 不 能 记录 问题 ， 机 器 必须 把 提问 压缩 成 简写 形式 ， 而 且 

对 所 有 提 的 问题 都 使 用 相同 的 简写 算法 (函数 )。 机 器 最 终 会 学 到 问题 语句 的 简写 ( 向量 ) 表示 。 

































































































































































































































































































































































































































































































































































(QD 2013 年 9 月 Mikolov、Chen、Corrado 和 Dean 发 表 的 “Efficient Estimation of Word Representations in Vector Space”。 
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如 果 大 家 想 了 解 更 多 关于 创建 高 维 对 象 压缩 表示 ( 如 词 ) 的 无 监督 深度 学 习 模型 ， 可 以 搜索 术语 “ 自 
编码 器 ”"， 这 种 模型 也 是 一 种 常见 的 神经 网 络 ， 儿 乎 可 以 应 用 于 任何 数据 集 。 


Word2vec 将 学 习 到 一 些 大 家 可 能 认为 与 所 有 词 本 身 并 不 相关 的 东西 ， 例 如 大 家 是 否 知道 其 
实 每 个 词 都 有 一 定 的 地 理 位 置 、 情 感 (积极 性 ) 和 性 别 倾向 性 ?如 果 语 料 库 中 有 任何 一 个 词 具 有 
某 种 属性 , 如 “placeness”( 平和 )、“peopleness”( 有 人 情 味 )、“conceptness”( 概念 化 ) 或 “femaleness” 
(女性 化 ) 等 ,那么 其 他 所 有 的 词 也 会 在 词 向 量 的 这 些 属性 上 得 分 。 当 Word2vec 学 习 词 向 量 时 ， 
可 以 认为 某 个 词 的 意义 “感染 ”了 其 相 邻 词 。 

语料库 中 的 所 有 词 都 将 由 数字 向 量 表示 ， 类 似 于 第 4 章 中 的 词 -主题 向 量 ， 只 是 这 次 的 主题 
具有 更 具体 、 更 准确 的 含义 。 在 LSA 中 ， 词 只 需要 在 相同 的 文档 中 出 现 ， 它 们 的 含义 就 会 相互 
“感染 ”， 并 融入 到 词 的 主题 向 量 中 。 对 于 Word2vec 词 向 量 ， 这 些 词 必须 彼此 相 邻 一 一 通常 在 同 
一 个 句子 中 的 间隔 不 超过 5 个 词 。 而 且 Word2vec 词 向 量 的 主题 权重 可 以 通过 加 减 运 算 来 创建 新 
的 有 意义 的 词 向 量 ! 

为 了 帮助 大 家 更 直观 地 理解 词 向 量 , 可 以 把 词 向 量 看 作 是 一 个 权重 或 分 数 的 列表 , 列表 中 的 
每 个 权重 或 分 数 都 对 应 于 这 个 词 在 某 个 特定 维度 的 含义 ， 如 代码 清单 6-1 所 示 。 



























































代码 清单 6-1 计算 属性 向 量 





>>> from nlpia.book.examples.ch06 nessvectors import * 
>>> nessvector('Marie Curie') .round(2) 








placeness -0.46 

peopleness 0.35 Word2vec 的 预 训练 模型 非常 
animalness 0 二 7 大 ,除非 内 存 足 够 大 ， 一般 不 
conceptness -0.32 导入 这 个 模块 
femaleness 0.26 

















大 家 的 属性 向 量 维 度 肖 定 会 更 有 趣 目 更 有 
]， 如 “trumpness”“ghandiness” 之 类 的 

你 可 以 使 用 nlpia 提供 的 工具 为 Word2vec 词汇 表 中 的 任何 词 或 n-gram 计算 属性 向 量 (nessvector ) 
( src/nlpia/book/examples/ch06_nessvectors.py )， 这 种 方法 适用 于 我 们 创建 的 所 有 属性 。 

Mikolov 在 思考 如 何 用 数字 向 量 表 示 词 的 过 程 中 开发 了 Word2vec 算法 ， 而 且 他 不 满足 于 不 
太 精 确 的 词 “ 情 感 ” 计 算 ， 如 之 前 在 第 4 章 介绍 的 那些 方法 。 他 想 做 的 是 面向 向 量 的 推理 ， 就 像 
大 家 在 前 一 节 中 处 理 的 类 比 问题 。 这 个 概念 听 起 来 很 有 趣 , 这 意味 着 可 以 用 词 向 量 做 数学 运算 , 再 
把 得 到 的 结果 向 量 转换 成 词 , 这 样 就 能 得 到 有 意义 的 答案 。 大 家 可 以 对 词 向 量 做 加 减法 来 对 它们 所 
表示 的 词 进 行 推理 ， 从 而 可 以 回答 类 似 于 之 前 例子 中 的 问题 ， 如 下 所 示 : 


wv['Timbers'] - wv['Portland'] + wv['Seattle'] = ? 















































Q@ 参见 标题 为 “Unsupervised Feature Learning and Deep Learning Tutorial” 的 网 页 。 
@ 这 里 为 那些 对 体育 不 感 兴趣 的 人 简单 介绍 一 下 ， 波 特 兰 伐 木 者 队 ( Portland Timbers ) 和 西雅图 海湾 人 队 
eattle Sounders ) 是 美国 职业 足球 大 联盟 中 的 球 队 。 














六 














一 
Cn 
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在 理想 情况 下 ， 和 希望 这 个 数学 运算 〈 词 向 量 推理 ) 能 返回 这 个 结 

wv['Seattle Sounders'] 

类 似 地 ， 对 于 类 比 问 题 “' 玛 丽 * 居 里 ”在 “物理 学 ”的 地 位 ， 正 如 _ 在 “古典 音乐 ”中 
的 地 位 ? ”， 可 以 理解 为 下 面 这 样 的 数学 表达 式 : 

wv['Marie Curie'] - wv[l'physics'] + wv['classical music'] = ? 

在 本 章 中 ， 我 们 将 对 上 一 章 中 介绍 的 LSA 词 向 量 表 示 法 进行 改进 。LSA 中 基于 整 篇 文档 构建 的 
主题 向 量 非 常 适合 文档 分 类 、 语 义 搜索 和 聚 类 。 但 是 LSA 生成 的 主题 - 词 向 量 不 够 精确 ， 不 能 用 于 短 
语 或 复合 词 的 语义 推理 、 分 类 和 聚 类 。 大 家 很 快 将 学 习 如 何 训练 单 层 神经 网 络 来 生成 这 些 更 精确 、 更 
有 趣 的 词 向 量 , 然后 就 会 明白 为 什么 在 很 多 涉及 短文 本 或 语句 的 应 用 中 它们 取代 了 LSA 词 - 主 题 向 量 。 


























6.2.1 面向 向 量 的 推理 


Word2vec 于 2013 年 在 ACL 会 议 上 首次 公开 亮相 ， 在 题 为 “连续 空间 词 表 示 中 的 语言 规律 ” 
报告 中 描述 了 一 个 精确 得 惊人 的 语言 模型 。 在 回答 类 比 问题 上 , Word2vec 词 能 入 的 精确 率 ( 45% ) 
是 LSA 模型 精确 率 (11% ) 的 4 倍 。 这 个 精确 率 太 令 人 吃惊 了 ， 以 至 于 Mikolov 最 初 的 论文 被 
ICLR 拒 稿 了 "。 和 审 稿 人 认为 这 个 模型 的 效果 好 得 让 人 不 敢 相信 。Mikolov 的 团队 花 了 将 近 一 年 的 
时 间 发 布 了 源 代码 ， 然 后 才 被 计算 语言 学 协会 (ACL ) 接收 。 

有 了 词 向 量 之 后 ， 类 似 于 

Portland Timbers + Seattle - Portland = ? 


的 问题 就 可 以 用 向 量 代 数 进行 解答 ( 如 图 6-1 所 示 )。 












































Xl 








Seattle + Portland Timbers - Portland = ? 


Seattle  _ _ _------ 2 
Portland 

Seattle Sounders 
Portland Timbers 


二 











和 6-1 ”Word2vec 代数 几何 
Word2vec 模型 包含 词 之 间 的 关系 信息 , 包括 词 的 相似 性 。Word2vec 模型 “知道 ”术语 Portland 














@ 见 ICLR2013 公开 评论 。 
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( 波 特 兰 ) 和 Portland Timbers( 波 特 兰 伐木 者 队 ) 之 间 的 距离 与 Seattle( 西雅图 ) 和 Seattle Sounders 
( 西雅图 海湾 人 队 ) 之 间 的 距离 大 致 相同 ,， 并且 这 些 距 离 的 方向 ( 向 量 对 之 间 的 差异 ) 大 致 相同 。 
所 以 Word2vec 模型 可 以 用 来 回答 球 队 的 类 比 问 题 。 大 家 可 以 把 Portland 和 Seattle 两 个 向 量 之 
间 的 差 值 加 到 表示 Portland Timbers 的 向 量 上 ， 这 样 得 到 的 结果 应 该 接近 术语 Seattle Sounders 
的 向 量 : 





0.0168 | | 0.093 0.104 0.006 
0.007 一 0.028 0.0883 | _| -0.109 





十 
0.247 —0.214 | | -0.318 0.352 


公式 6-1 计算 足球 队 问 题 的 答案 











在 进行 词 向 量 的 加 减法 运算 后 ， 得 到 的 向 量 一 般 不 会 正好 等 于 词 向 量 表 中 的 某 个 向 量 。 不 过 ， 
Word2vec 词 向 量 通 常 有 100 维 ， 每 个 维度 上 都 有 连续 的 实 值 ， 词 向 量 表 中 与 运算 结果 最 接近 的 
向 量 通常 就 是 NLP 问题 的 答案 。 与 这 个 相 邻 向 量 相关 联 的 词 正 是 我 们 关于 运动 队 和 城市 问题 的 
自然 语言 答案 。 

Word2vec 可 以 将 表示 词 条 的 出 现 次 数 和 频率 的 自然 语言 向 量 转 换 为 更 低 维 的 Word2vec 向 量 
空间 。 在 这 个 低 维 空间 中 , 我 们 可 以 进行 数学 运算 ， 并 将 结果 转换 回 自然 语言 空间 。 大 家 可 以 想 
象 一 下 这 个 功能 在 聊天 机 器 人 、 搜 索引 擎 、 问 答 系 统 或 信息 提取 算法 中 将 发 挥 多 么 重要 的 作用 。 

注意 Mikolov 和 他 的 同事 们 在 2013 年 发 表 的 第 一 篇 论文 中 在 答案 精确 率 上 只 有 40%。 但 在 2013 

年 ， 这 种 方法 比 当 时 其 他 任何 一 种 语义 推理 方法 的 效果 都 要 好 很 多 。 自 首次 发 布 以 来 ， 通 过 在 非常 

大 的 语料库 上 进行 训练 ，Word2vec 的 效果 得 到 了 进一步 的 提高 。 有 一 种 实现 方案 是 从 包含 1000 亿 

个 词 的 谷歌 新 闻 语 料 库 中 训练 得 到 的 。 这 个 预 训练 模型 在 后 文中 还 将 出 现 很 多 次 。 


研究 团队 还 发 现 了 单词 的 单数 和 复数 形式 之 间 的 差异 在 大 小 和 方向 上 基本 相同 : 





















































Necoffee ~ Xeoffees YT Xeup ~ Xeups TY Xecookie ~ Xcookies 


公式 6-2 ”单词 的 单数 与 复数 形式 之 间 的 距离 











但 他 们 的 发 现 并 不 止 于 此 。 他 们 还 发 现 ， 距 离 关 系 远 远 超出 简单 的 单 复数 关系 。 距 离 适 用 于 其 他 
语义 关系 。Word2vec 研究 人 员 很 快 发 现 他 们 还 可 以 回答 一 些 涉及 地 理 、 文 化 和 人 口 统计 的 问题 , 例如 : 


"San Francisco is to California as what is to Colorado?" 





San Francisco - California + Colorado = Denver 


使 用 词 向 量 的 更 多 原因 











词 向 量 表示 法 不 但 对 推理 和 类 比 问题 有 用 , 而 且 对 其 他 所 有 使 用 自然 语言 向 量 空间 模型 处 理 
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的 问题 都 有 用 。 当 大 家 从 本 章 中 学 会 如 何 使 用 词 向 量 后 ， 大 家 的 NLP 流水 线 的 精确 性 和 实用 性 
都 将 得 到 提高 ， 包 括 模式 匹配 、 建 模 和 可 视 化 等 。 

例如 ， 在 本 章 后 面 的 部 分 ， 我 们 将 展示 如 何在 二 维 语义 图 上 对 词 向 量 进行 可 视 化 展示 ， 如 图 6-2 
所 示 。 大 家 可 以 把 它 想象 成 一 个 旅游 经 典 的 卡通 地 图 , 或 者 在 公交 车站 报亭 常见 到 的 那 种 印象 铂 
地 图 。 在 这 些 卡通 地 图 中 ,语义 上 接近 的 对 象 在 地 理 位 置 上 也 彼此 相 邻 ,我 们 的 艺术 家 ( Word2vec ) 
根据 对 各 个 地 点 的 “感受 ”来 调整 图 标的 比例 和 位 置 。 通 过 词 向 量 ， 机 器 可 以 感知 词 和 地 点 以 及 
它们 之 间 的 距离 。 因 此 ， 机 器 将 能 够 使 用 词 向 量 来 生成 印象 派 地 图 ， 如 图 6-2 所 示 。 ” 
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X 


图 6-2 10 个 美国 城市 的 词 向 量 在 二 维 图 上 的 投影 


如 果 大 家 熟悉 这 些 美 国 城市 ， 可 能 会 意识 到 这 并 不 是 一 个 准确 的 地 理 地 图 ， 但 它 是 一 个 很 好 的 语 
义 地 图 。 例 如 ， 我 自己 就 经 常会 弄 混 休斯顿 (Houston ) 和 达拉斯 (Dallas ) 这 两 个 得 克 萨 斯 州 的 大 城 
市 ,它们 的 词 向 量 几 乎 相同 。 在 我 的 脑海 中 ， 加 利 福 尼 亚 大 城市 的 词 向 量 构 成 了 一 个 很 好 的 文化 三 角 。 

词 向 量 对 聊天 机 器 人 和 搜索 引擎 也 很 有 用 。 在 这 些 应 用 场景 中 , 词 向 量 有 助 于 克服 模式 匹配 或 关 
键 词 匹配 的 刻板 性 和 脆弱 性 。 假 设 大 家 搜索 一 个 来 自得 克 萨 斯 州 休斯顿 的 名 人 的 信息 ， 但 并 不 知道 他 
已 经 搬 到 了 达拉斯 。 从 图 6-2 中 可 以 看 出 ， 使 用 词 向 量 进行 语义 搜索 可 以 很 容易 地 计算 出 包括 城市 名 
称 (如 达拉斯 和 休斯顿 ) 的 搜索 结果 。 基 于 字符 的 模式 无 法 理解 “tell me about a Denver omelette”( 跟 
我 说 说 丹佛 前 和 蛋 ) 和 “tell me about the Denver Nuggets”( 跟 我 说 说 丹佛 掘 金 队 ) 之 间 的 区 别 ， 但 是 词 
问 量 可 以 。 基 于 词 向 量 的 模式 可 以 区 分 食物 ( 前 和 蛋 ) 和 篮球 队 ( 掘 金 )， 从 而 对 用 户 做 出 适当 的 回应 。 





















































































































































6.2.2 ”如 何 计 算 Word2vec 表示 
词 向 量 将 词 的 语义 表示 为 训练 语料库 中 上 下 文中 的 向 量 。 这 不 仅 能 回答 类 比 问题 ， 还 能 让 

















Q@ 大 家 可 以 在 本 书 源 代码 中 找到 生成 这 些 交 互 式 二 维 词 图 的 代码 (src/nlpia/book/examples/ch06_w2v_us _cities_ 


Visualiz.py )。 
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大 家 用 更 为 通用 的 向 量 代 数 去 推理 词 的 含义 。 但 是 如 何 去 计算 这 些 向 量 表 示 呢 ? 训练 Word2vec 
般 入 有 两 种 方法 : 
加 ”skip-gram 方法 ， 基 于 目标 词 (输入 词 ) 预测 上 下 文 (输出 词 ); 
国 连续 词 袋 (continuous bag-of-words，CBOW ) 方法 ， 基 于 邻近 词 (输入 词 ) 预测 目标 词 
(输出 词 )。 

接 下 来 的 章节 中 我 们 将 展示 如 何 及 何 时 使 用 每 种 方法 去 训练 Word2vec 模型 。 

词 向 量 表示 的 计算 是 资源 密集 型 的 。 幸运 的 是 ,对 于 大 多 数 应 用 程序 ,不 需要 计算 自己 的 词 
向 量 , 直接 使 用 预 训练 好 的 模型 即 可 。 很 多 拥有 大 型 语料库 并 能 负担 计算 资源 开销 的 公司 已 经 
源 了 它们 的 预 训练 词 向 量 模型 。 在 本 章 的 后 续 部 分 ， 我们 将 介绍 如 何 使 用 这 些 预 训练 好 的 词 模型 ， 
如 GloVe 和 fastText。 



































提示 在 维基 百科 、DBPedia、Twitter 和 Freebase 等 语料库 上 都 有 预 训练 好 的 词 向 量 表示 ， 这 些 预 

训练 模型 对 大 家 的 词 向 量 应 用 程序 来 说 会 是 个 很 好 的 起 点 : 

加 ”谷歌 提供 一 个 基于 英文 谷歌 新 闻 报 道 的 预 训练 Word2vec 模型 ; 

加 ”Facebook 发 布 了 支持 294 种 语言 的 称 为 fastText 的 词 向 量 模型 ”。 

但 是 ， 对 于 依赖 专业 词汇 表 或 语义 关系 的 领域 , 通用 的 词 向 量 模 型 就 不 够 了 。 例 如， 如 果 和 希 
望 “python” 明 确 地 表示 编程 语言 而 不 是 爬行 动物 ， 就 需要 一 个 特定 领域 的 词 向 量 模型 。 如 果 需 
要 将 词 品 量 的 使 用 限定 在 特定 领域 中 ， 就 需要 用 这 个 特定 领域 的 文本 数据 来 进行 训练 。 









































1. skip-gram 方法 


在 skip-gram 训练 方法 中 ， 需 要 预测 输入 词 周围 窗口 的 词 。 在 下 面 这 个 关于 Monet 的 句子 的 例子 
中 ，“painted” 是 神经 网 络 的 训练 输入 ， 对 应 的 预测 


















































周围 词 wiz、wi 
词 输出 是 其 相 邻 词 “Claude”“Monet”“the” 和 “Grand”， 
skip-gram 相应 的 训练 输出 示例 如 图 6-3 所 示 。 
Claude Monet | painted the Grand | Canal of Venice in 1908. 
什么 是 skip-gram skip-gram 是 一 种 包含 间隙 的 跳 \ 
跃 式 n-gram 语法 ， 因 为 我 们 跳 过 了 中 间 词 条 。 在 这.，_ 周围 词 W,1、wis2 
河 = 要 预测 的 词 


个 例子 中 ,基于 输入 词 “painted” 去 预测 “Claude”， = 输入 词 

跳 过 了 “Monet”。 图 6-3 ”skip-gram 方法 的 输入 与 输出 

用 来 预测 周围 词 的 神经 网 络 结构 与 大 家 在 第 5 章 学 的 网 络 结构 类 似 。 如 图 6-4 所 示 ， 网 络 由 两 
层 权重 组 成 ， 隐 娠 层 由 个 神经 元 组 成 ， 其 中 表示 词 的 向 量 维 数 。 输 入 层 和 输出 层 都 包含 M 个 神 
经 元 ， 其 中 M 是 模型 的 词汇 表 中 的 词 的 总 数 。 输 出 层 激 活 函 数 是 分 类 问题 中 常用 的 softmax 函数 。 














Q@ 详 见 标题 为 “GitHub - 3Top/word2vec-api: Simple web service providing a word embedding model” 的 网 页 。 
@ 在 Google Drive 上 可 以 获得 谷歌 原始 的 300 维 Word2vec 模型 。 
@) 详 见 标题 为 “GitHub - facebookresearch/fastText: Library for fast text representation and classification ”的 网 页 。 
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2. 什么 是 softmax 


当 神 经 网 络 的 目标 是 学 习 分 类 问题 时 ， 经 常用 softmax 函数 作为 神经 网 络 输出 层 的 激活 函数 。 
softmax 可 以 将 输出 结果 压缩 为 0 到 1 之 间 的 值 ， 所 有 输出 的 和 加 起 来 等 于 1。 这 样 ，softmax 也 
数 的 输出 层 结果 就 可 以 当 作 概率 。 

对 于 天 个 输出 节点 ，softmax 输出 值 通过 归 一 化 指数 函数 计算 如 下 : 








e -7 
eal) > 人 和 
sl 


假设 一 个 包含 3 个 神经 元 的 输出 层 的 输出 向 量 为 





0.5 
v=|0.9 
0.2 


公式 6-3 三维 向 量 示 例 





则 经 过 softmax 激活 函数 压缩 后 的 结果 向 量 将 为 





0.309 
alv)=| 0.461 
0.229 


公式 6-4 三 维 向 量 经 softmax 函数 压缩 后 的 结果 








注意 ， 这 些 值 的 和 ( 四 舍 五 人 到 3 位 有 效 数 字 ) 约 等 于 1.0， 类 似 于 概率 分 布 。 
6-4 给 出 了 前 两 个 周围 词 在 网 络 中 的 输入 值 和 输出 值 。 在 本 例 中 , 输入 词 为 “Monet”, 根 
据 训练 数据 ， 网 络 的 期 望 输出 将 是 “Claude” 或 “painted”。 


注意 如 果 大 家 看 一 下 词 谨 入 的 神经 网 络 结构 ， 会 注意 到 其 实现 与 第 5 章 中 提 到 的 网 络 结构 类 似 。 














网 络 如 何 学 习 向 量 表示 

我 们 将 使 用 第 2 章 中 的 技术 来 训练 Word2vec 模型 。 例 如 ， 在 表 6-1 中 ，w 表 示 在 位 置 1 处 
的 词 条 独 热 向 量 (one-hot vector )， 如 果 使 用 skip-gram 窗口 大 小 为 2 (半径 ) 来 训练 Word2vec 
模型 ， 则 需要 考虑 每 个 目标 词 前 后 的 两 个 词 。 这 里 大 家 可 以 使 用 第 2 章 中 提 到 的 5-gram 分 词 器 
来 将 下 面 的 句子 转换 为 10 个 以 输入 词 为 中 心 的 5-gram， 原 句子 中 的 每 个 词 作为 一 个 输入 词 都 对 


应 一 个 5-gram。 
































>>> sentence = "Claude Monet painted the Grand Canal of Venice in 1806." 
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独 热 向 量 softmax 输 出 
“Monet m 个 隐藏 层 神经 元 “Claude” 
Claude 
Monet 
painted 
the 
1806 
softmax 输 出 
“painted” 
Claude Claude 
Monet Monet 
painted painted 
the the 
1806 1806 
图 6-4 ”skip-gram 训练 神经 网 络 示例 
表 6-1 Monet 句子 中 的 10 个 5-gram 
输入 词 wi 期 望 输 出 wi 期 望 输出 wi-1 期 望 输出 wir1 期 望 输出 wi2 
Claud Monet painted 
Monet Claud painted the 
painted Claud Monet the Grand 
the Monet painted Grand Canal 
Grand painted the Canal of 
Canal the Grand of Venice 
of Grand Canal Venice in 
Venice Canal of in 1908 
in of Venice 1908 
1908 Venice in 
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由 输入 词 和 周围 词 (输出 词 ) 组 成 的 训练 集 构成 了 这 个 神经 网 络 训练 的 基础 数据 集 。 在 周围 词 
数量 为 4 的 情况 下 ,将 使 用 4 次 迭代 训练 网 络 ， 每 次 迭代 都 是 基于 输入 词 预测 其 中 一 个 输出 词 。 

每 个 词 在 进入 网 络 前 被 表示 为 一 个 独 热 向 量 ( 见 第 2 章 )。 神 经 网 络 做 词 嵌入 的 输出 向 量 也 类 
似 于 一 个 独 热 向 量 。 通 过 输出 层 节 点 ( 输出 层 上 每 个 节点 对 应 于 词汇 表 中 的 一 个 词 条 ) 的 softmax 
激活 函数 来 计算 输出 词 是 输入 词 的 周围 词 的 概率 。 然 后 将 最 大 概率 的 词 转换 为 1， 其余 所 有 词 转换 
为 0， 从 而 将 输出 词 的 概率 向 量 转换 为 一 个 独 热 向 量 ， 这 样 处 理 可 以 简 小 损失 函数 的 计算 复杂 度 。 

当 完 成 神经 网 络 训练 后 , 经 过 训练 后 的 网 络 权重 可 以 用 来 表示 语义 。 经 过 词 条 独 热 向 量 的 转 
换 ， 权重 和 矩阵 中 的 一 行 表示 语料库 词汇 表 中 的 一 个 词 。 语 义 相 似 的 词 被 训练 为 预测 相似 的 周围 词 ， 
因此 经 过 训练 之 后 也 会 有 相似 的 向 量 。 这 简直 就 是 魔法 ! 

词 向 量 模型 训练 结束 后 便 不 再 进行 额外 的 训练 , 因此 可 以 忽略 网 络 的 输出 层 , 只 用 隐藏 层 的 
输入 权重 来 作为 词 戏 入 表示 。 换 名 话说， 这 个 权重 矩阵 就 是 大 家 所 需要 的 词 做 入 。 输 入 词 项 的 独 
热 问 量 表示 与 权重 的 点 积 代表 词 向 量 谈 入 。 

用 线性 代数 检索 词 向 量 

神经 网 络 中 隐藏 层 的 权重 通常 表示 为 矩阵 : 每 列表 示 一 个 输入 层 神经 元 ,每 行 表示 一 个 输出 
层 神经 元 。 这 样 就 能 通过 将 权重 矩阵 与 上 一 层 输 入 的 列 向 量 相 乘 ， 来 生成 指向 下 一 层 的 输出 列 向 



























































量 (如 图 6-5 所 示 )。 因 此， 如 果 我 们 将 一 个 独 热 行 向 量 与 训练 好 的 权重 矩阵 相 乘 ( 点 积 运算 ), 将 
从 每 个 神经 元 〈 从 每 个 矩阵 列 ) 得 到 一 个 权重 。 同 样 ， 也 可 以 用 权重 矩阵 与 词 的 独 热 列 向 量 相 乘 。 


3 个 神经 元 
的 权重 矩阵 





词汇 表 中 的 6 个 词 
的 独 热 向 量 


Oo x 


点 积 计算 


(0x0.03) + (1x0.06) + (0x0.14) + (0x0.24) + (0x0.12) + (0x0.32) 
= |(0x0.92)+(1x0.32) + (0x0.62) + (0x0.99) + (0x0.02) + (0x0.23) 


(0x0.66) + (1x0.61) + (0x0.43) + (0x0.62) + (0x0.44) + (0x0.55) | 



































三 维 结果 词 向 量 
图 6-5” 独 热 向 量 转换 为 词 向 量 


事实 上 , 独 热 向 量 的 点 积 运算 只 是 从 权重 矩阵 中 选 出 包含 这 个 词 权 重 的 那 一 行 , 来 作为 该 词 的 词 向 
量 。 大 家 也 可 以 只 使 用 词汇 表 中 的 行 号 或 索引 号 进行 检索 ， 同 样 也 可 以 轻松 地 从 权重 矩阵 中 得 到 该 行 。 
3. 连续 词 袋 方法 

在 连续 词 袋 (CBOW ) 方法 中 ， 将 根据 周围 词 去 预测 中 心 词 (如 图 6-5、 图 6-6 和 表 6-2 所 
示 )。 这 里 不 用 创建 输入 和 输出 词 条 标记 对 ， 而 可 以 创建 一 个 多 热 向 量 (multi-hot vector ) 作为 输 
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词 向 量 推理 ( Word2vec ) 


入 向 量 。 多 热 向 量 是 围绕 中 心 词 的 所 有 周围 词 的 独 热 向 量 的 和 。 


Pi 周围 词 wi.2、wi.1 


Claude Monet | painted 


2 


= 要 预测 的 词 
图 6-6 CBOW 方法 的 训练 输入 输出 示例 


目标 词 w 





Canal of Venice in 1908. 
SR 周围 词 wi,1、 


= 输入 词 


Wit+2 


表 6-2 CBOW 方法 中 Monet 句子 中 的 10 个 5-gram 
































输入 词 wi- 输入 词 Wi-1 输入 词 Wer1 输入 词 wi:2 期 望 输 出 wi 
Monet painted Claud 
Claud painted the Monet 
Claud Monet the Grand painted 
Monet painted Grand Canal the 
painted the Canal of Grand 
the Grand of Venice Canal 
Grand Canal Venice in of 
Canal of in 1908 Venice 
of Venice 1908 in 
Venice in 1908 

















大 家 可 以 在 训练 集 的 基础 上 创建 多 热 向 量 作为 输入 ， 并 将 其 映射 到 目标 词 上 作为 输出 。 多 热 向 
围 词 对 的 独 热 向 量 之 和 w+wr+wai+wro 以 多 热身 量 作为 输入 ， 目 标 词 w, 作 为 输出 ， 以 








区 要 


量 是 后 

















构建 训练 样本 对 。 在 训练 过 程 中 ， 由 输出 层 softmax 导出 概率 最 大 的 节点 作为 输出 (如 图 6-7 所 示 )。 


n 个 隐藏 层 神经 元 


多 热 向 量 softmax 输 出 “painted” 





Claude 


全 
Monet 


painted 0 








图 6-7 CBOW Word2vec 神经 网 络 
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连续 词 袋 和 词 袋 

在 前 面 的 章节 中 ， 我 们 介绍 了 词 袋 的 概念 ， 那 么 它 与 连续 词 袋 有 什么 区 别 呢 ? 为 了 构建 句子 中 词 之 
间 的 关系 ， 可 以 在 句子 中 设置 一 个 滑动 窗口 来 选择 目标 词 的 周围 词 ， 滑 动 窗口 内 的 所 有 词 将 被 认为 是 窗 
口中 央 的 目标 词 的 连续 词 袋 的 内 容 。 












































Claude Monet painted the Grand|Canal of Venice in 1908. 
Claude|Monet painted the Grand Canallof Venice in 1908. 
Claude Monet|painted the Grand Canal of |Venice in 1908. 


上 图 是 一 个 长 度 为 5 的 滑动 窗口 通过 句子 “Claude Monet painted the Grand Canal of Venice in 
1908.” 时 产生 的 连续 词 袋 ， 在 第 一 个 CBOW 滑动 窗口 中 ， 目 标 词 ( 中 心 词 ) 是 “painted”，4 个 周围 词 
是 “Claude “Monet the” 和 “Grand 。 
















































































4. skip-gram 和 CBOW: 什么 时 候 用 哪 种 方法 


Mikolov 强调 ，skip-gram 方法 对 于 小 型 语料库 和 一 些 罕见 的 词 项 比较 适用 。 在 skip-gram 方 
法 中 ， 由 于 网 络 结构 的 原因 ， 将 会 产生 更 多 的 训练 样本 。 但 CBOW 方法 在 常用 词 上 有 更 高 的 精 
确 性 ， 并 且 训 练 速度 快 很 多 。 


5. Word2vec 计算 技巧 











在 首次 发 布 之 后 ，Word2vec 模型 经 过 使 用 各 种 计算 改进 方案 使 性 能 得 到 了 提高 。 在 本 节 中 ， 
我 们 将 重点 介绍 3 个 改进 方案 。 

高 频 2-gram 

有 些 词 经 常 与 其 他 词组 合 出 现 , 例如 “Elvis” 通 党 后 面 跟 “Presley”( 这 两 个 词 分 别 是 猫 王 
的 名 字 与 姓氏 )， 从 而 构成 一 个 2-gram。 人 然而 “Elvis” 与 “Presley” 共 现 频率 非常 高 ， 做 这 种 预 
测 并 没有 多 少 价值 。 为 了 提高 Word2vec 柚 人 的 精确 率 ，Mikolov 团队 在 Word2vec 词汇 表 中 加 
和 了 一 些 2-gram 和 3-gram 作为 词 项 ,他 们 使 用 共 现 频率 来 区 分 应 该 被 认为 是 单个 词 项 的 2-gram.、 
3-gram， 如 下 列 公式 所 示 : 





























count (wi,w; )-—5 





score (wi,w; ) = 
count (wi; )xcount (w, ) 


公式 6-5 2-gram 打分 函数 





(DD Mikolov 团队 发 布 的 文章 中 提供 了 更 多 详细 信息 。 
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如 果 w 和 Wi 经 计算 得 到 的 分 数 高 于 阔 值 5， 则 这 两 个 词 应 当 作为 词 项 对 被 包含 在 Word2vec 
词汇 表 中 。 大 家 会 注意 到 模型 的 词汇 表 中 包含 “New York” 和 “San _ Francisco” 等 形式 的 词 项 ， 
这 是 因为 Word2vec 将 频繁 出 现 的 2-gram 的 两 个 词 用 一 个 字符 ( 常用 下 划 线 “_”) 连接 起 来 ,这 
样 处 理 之 后 ， 这 些 2-gram 就 可 以 表示 为 单个 独 热 向 量 ， 而 不 再 是 两 个 单独 的 向 量 。 

词 对 的 另 一 个 影响 是 组 合 词 通常 与 其 中 的 单个 词 表 达 的 意思 完全 不 一 样 。 例 如 , 美国 职业 足 
球 大 联盟 (MLS ) 的 Portland Timbers ( 波 特 兰 伐木 者 队 ) 就 与 Portland ( 波 特 兰 ) 和 Timbers ( 木 
材 ) 这 两 个 词 的 意思 完全 不 一 样 。 通 过 在 Word2vec 模型 中 添加 经 常 出 现 的 2-gram ( 如 球 队 名 称 )， 
可 以 很 容易 地 将 这 些 词 对 用 独 热 向 量 进行 表示 ， 从 而 便于 进行 模型 训练 。 

高 频 词 条 降 采 样 

另 一 个 改进 原 算法 性 能 的 方法 是 高 频 词 条 降 采 样 。 像 “the” 或 “a” 这 样 的 常用 词 通常 不 包含 
重要 信息 ， 语 料 库 中 “the” 与 许多 名 词 都 共 现 ， 因 此 并 不 会 带 来 更 多 的 含义 ， 反 而 给 Word2vec 
语义 相似 性 表示 带 来 一 定 的 混淆 。 

重要 说 明 所 有 的 词 都 有 意义 ， 包 括 停 用 词 ， 在 训练 词 向 量 或 构建 词汇 表 时 不 应 该 完全 忽略 或 跳 过 


这 些 停 用 词 。 另 外 ， 由 于 词 向 量 经 常用 在 生成 模型 中 〈 如 本 书 中 Cole 模型 用 词 向 量 来 构造 句子 )， 
这 种 场景 下 ， 词 汇 表 中 就 必须 包含 停 用 词 和 其 他 常用 词 ， 并 且 人 允许 这 些 词 影响 其 相 邻 词 的 词 向 量 。 




































































为 了 减少 像 停 用 词 这 样 的 高 频 词 的 影响 , 可 以 在 训练 过 程 中 对 词 进行 与 其 出 现 频率 成 反比 的 采样 。 
其 效果 类 似 于 IDF 对 TF-IDF 向 量 的 影响 。 相 比 于 罕见 词 , 高 频 词 被 赋 以 对 向 量 更 小 的 影响 力 。Mikolov 
用 下 面 的 公式 来 确定 给 定 词 的 采样 概率 ,这 个 概率 决定 了 在 训练 过 程 中 是 否 将 该 词 包含 在 skip-gram 中 : 





公式 6-6 ”Mikolov Word2vec 论文 中 的 降 采 样 概率 


Word2vec C++ 版 中 ， 计 算 降 采样 概率 的 实现 与 论文 所 述 稍 有 些 不 同 ， 但 效果 是 一 样 的 : 








公式 6-7 ”Mikolov Word2vec 代码 中 的 降 采样 概率 





在 上 式 中 ，f (wi ) 表示 一 个 词 在 语料库 中 的 出 现 频率 ，t 表示 频率 阔 值 ， 超 出 这 个 阔 值 的 才 会 进行 
降 采 样 。 羡 值 取 决 于 语料库 规模 、 平 均 文档 长 度 和 文档 中 词 的 多 样 性 。 文 献 中 通常 使 用 105 ~ 10 的 值 。 

如 果 一 个 词 在 整个 语料库 中 出 现 了 10 次， 而 语料库 中 有 100 万 个 不 同 的 词 ， 将 降 采 样 阔 值 
设置 为 10*， 那 么 在 分 词 期 间 构建 n-gram 的 过 程 中 ， 这 个 词 留 在 某 个 n-gram 中 的 概率 是 68% ， 
剩 下 32% 的 概率 会 跳 过 它 。 

Mikolov 表明 ， 在 回答 类 比 问题 等 任务 中 ,使 用 降 采 样 提高 了 词 向 量 的 精确 率 。 
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负 采 样 

Mikolov 提出 的 最 后 一 个 技巧 是 负 采 样 。 当 一 个 训练 样本 〈 一 对 词 ) 输入 网 络 后 ， 会 引起 网 络 中 所 
有 权重 的 更 新 ,这样 会 改变 词汇 表 中 所 有 词 的 向 量 值 。 如 果 词 汇 表 规 模 达 到 十 亿 级 ， 为 一 个 大 型 的 独 热 
向 量 更 新 所 有 权重 将 会 变 得 极其 低 效 。 为 了 加 快 词 向 量 模型 的 训练 速度 ，Mikolov 采用 了 和 负 采 样 方法 。 

Mikolov 建议 只 在 输出 向 量 中 选取 少量 的 负 样本 进行 权重 更 新 ， 而 不 用 去 更 新 词 窗口 以 外 所 
有 其 他 词 的 权重 。 选 取 n 个 负 样 本 词 对 《〈 目标 输出 词 之 外 的 词 )， 根据 其 对 输出 的 贡献 来 更 新 对 
应 的 权重 。 通 过 这 种 方法 ， 可 以 极 大 地 减 小 计算 量 ， 而 且 对 训练 网 络 性 能 不 会 有 明显 影响 。 


注意 ”如果 是 在 一 个 小 型 语料库 上 来 训练 词 向 量 ,那么 可 以 使 用 5 ~20 个 样本 的 负 采 样 率 。 对 于 较 
大 型 的 语料库 和 词汇 表 ， 根据 Mikolov 团队 的 建议 ， 可 以 将 负 采 样 率 降低 到 2~5 个 样本 。 


















































6.2.3 ”如 何 使 用 gensim.word2vec 模块 


如 果 前 面 的 部 分 听 起 来 太 复杂 ,不 要 担心 。 很 多 公司 都 提供 了 预 训练 好 的 词 向 量 模 型 ,而 且 
有 很 多 针对 各 种 编程 语言 的 NLP 库 ， 可 以 让 大 家 方便 地 使 用 这 些 预 训练 模型 。 接 下 来 ， 我 们 将 
了 解 如 何 利 用 词 向 量 的 魔力 。 我 们 将 使 用 在 第 4 章 中 也 曾 提 到 过 的 流行 的 gensim 库 。 
如 果 大 家 已 经 安装 了 nlpia 包 "， 可 以 用 下 面 的 命令 来 下 载 一 个 预 训练 Word2vec 模型 : 


>>> from nlpia.data.loaders import get data 
>>> word vectors = get data('word2vec') 


如 果 这 个 命令 不 起 作用 , 或 者 大 家 喜欢 亲自 动手 的 话 , 那么 可 以 用 谷歌 搜索 在 谷歌 新 闻 文档 
上 预 训练 的 Word2vec 模型 "。 下 载 谷歌 的 这 个 原始 二 进 制 格式 的 模型 后 ， 将 其 放 在 本 地 路 径 中 ， 
然后 用 下 面 的 gensim 包 来 进行 加 载 : 

>>> from gensim.models.keyedvectors import KeyedVectors 


>>> word vectors = KeyedVectors.load word2vec format (\ 
'/path/to/GoogleNews-vectors-negative300.bin.gz', binary=True) 


词 向 量 可 能 会 占用 大 量 内 存 空间 ,如 果 可 用 内 存 有 限 , 或 者 不 想 等 待 好 几 分 钟 来 加 载 词 向 量 
模型 ， 可 以 设置 1imit 参数 ， 以 此 来 减少 加 载 到 内 存 中 的 词 的 数量 。 在 下 面 的 示例 中 ， 大 家 将 
从 谷歌 新 闻 语 料 库 中 加 载 最 常用 的 20 万 个 词 : 

>>> from gensim.models.keyedvectors import KeyedVectors 

>>> word vectors = KeyedVectors.load word2vec format (\ 


'/path/to/GoogleNews-vectors-negative300.bin.gz', 
binary=True, limit=200000) 


但 是 请 注意 , 如 果 文 档 中 包含 了 未 加 载 词 向 量 的 那些 词 , 那么 这 个 只 有 有 限 词汇 量 的 词 向 量 
模型 将 影响 后 续 NLP 流水 线 处 理 的 效果 。 因 此 ， 最 好 只 在 开发 阶段 限制 词 向 量 模 型 的 规模 。 对 

































































@ 参见 本 书 源 代码 中 的 README 文件 。 
@ 谷歌 将 Mikolov 训练 的 原始 模型 托管 在 谷歌 云 盘 (Google Drive ) 上 。 
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Yi 和 


于 本 章 中 的 其 他 例子 ， 如 果 想 达到 本 书展 示 的 结果 ， 就 必须 使 用 完整 的 Word2vec 模型 。 
gensim.KeyeqVectors .most similar() 方 法 提供 了 对 于 给 定 词 向 量 ， 查 找 最 近 的 相 
邻 词 的 有 效 方法 。 关 键 字 参数 positive 接受 一 个 待 求 和 的 向 量 列表 ， 类 似 于 本 章 开 头 足 球 队 
的 例子 。 同 样 ， 大 家 也 可 以 用 negative 参数 来 做 减法 ， 以 排除 不 相关 的 词 项 。 参 数 topn 用 
于 指定 返回 结果 中 相关 词 项 的 数量 。 
与 传统 的 同义词 词典 不 同 ，Word2vec 的 同 义 度 〈 相 似 度 ) 是 连续 值 ， 代 表 向 量 距 离 ， 这 是 
因为 Word2vec 本 身 是 一 个 连续 的 向 量 空间 模型 。Word2vec 的 高 维和 每 个 维度 的 连续 值 特性 使 其 
能 够 捕捉 到 给 定 词 的 全 部 含义 。 这 就 是 它 能 用 于 做 类 比 、 连 接 以 及 多 义 并 排 的 原因 ”: 


>>> word vectors.most similar (positive=['cooking', "Potatoes']，topn=5) 
[('cook', 0.6973530650138855)，, 

('oven roasting', 0.6754530668258667), 

('Slow cooker', 0.6742032170295715)， 

('sweet potatoes', 0.6600279808044434)， 

('stir fry vegetables', 0.6548759341239929)] 
>>> word vectors.most similar (positive=['germany', ‘'france'], topn=1) 
[('europe', 0.7222039699554443)] 


词 向 量 模型 也 可 以 用 来 检测 不 相关 的 词 项 。gensim 库 提供 了 一 个 名 为 doesnt _ match 的 方法 : 


>>> word Vectors .qdqoesnt _ match ("potatoes milk cake computer".split()) 
"ComputetL 


为 了 检测 列表 中 最 不 相关 的 词 项 ， 该 方法 将 返回 列表 中 与 其 他 词 项 距离 最 远 的 词 项 。 
如 果 大 家 想 完 成 计算 ( 例如, 著名 的 例子 fing + woman - man = queen， 这 个 例子 起 初 让 Mikolov 
和 他 的 导师 兴奋 不 已 ), 可 以 通过 在 调用 方法 most_similar 中 添加 一 个 negative 参数 来 实现 : 


>>> word vectors.most similar (positive=['king', ‘'woman'], 
本 negative=['man'], topn=2) 
[('queen', 0.7118192315101624), ('monarch', 0.6189674139022827)] 


gensim 库 支 持 两 个 词 项 之 间 的 相似 度 计算 , 如 果 要 比较 两 个 词 并 确定 它们 的 余弦 相似 度 , 可 
以 使 用 .similarity() 方 法 : 


>>> word vectors.similarity('princess', 'gqueen') 
0.70705315983704509 


如 果 大 家 想 开 发 自己 的 函数 并 使 用 原始 的 词 向 量 ， 那 么 可 以 在 KeyedVector 实例 上 通过 
Python 的 方 括号 语法 ( [] ) 或 get () 方 法 来 实现 ， 这 样 将 加 载 的 模型 对 象 视 为 一 个 字典 ， 而 目 
标 词 是 字典 中 的 一 个 键 , 返回 结果 是 一 个 数组 ,数组 中 的 每 个 浮 点 数 表示 向 量 的 一 个 维度 。 在 谷 

歌 的 词 向 量 模型 中 ， 返 回 的 numpy 数组 的 形状 为 1 x 300: 


>>> word vectors['phone'] 
array([-0.:01446533;, =0:12792969; -0..115722667 =0.::22167969; -0.073730475 






































































































































QD Surfaces and Essences: Analogy as the Fuel and Fire of Thinking， 作者 Douglas Hoffstadter 和 Emmanuel 
Sander， 此 书 中 清楚 地 益 述 了 让 机 器 处 理 类 比 和 连接 问题 的 重要 性 。 
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-0.05981445, -0.10009766, -0.06884766, 0.14941406, 0.10107422， 
0 0306L72 050327L484; .=0.:03125 0.079L0L6,.. 012158203. 
O160150629;: "OmLT93359387 "0500659L8. 7 "=0L5429688; .10:037109383 

















如 果 想 要 知道 所 有 这 些 数值 的 含义 ,也 是 可 以 做 到 的 , 只 是 需要 费 点 儿 功 夫 。 大 家 需要 去 检 
查 一 些 同义词 ， 看 看 它们 在 这 300 个 数值 中 有 哪些 是 重复 的 。 或 者 就 像 在 本 章 开头 所 做 的 那样 
对 这 些 数值 进行 线性 组 合 ， 寻 找 其 中 构成 “placeness” “femaleness” 等 属性 的 维度 。 


























6.2.4 生成 定制 化 词 向 量 表示 


在 某 些 情况 下 ， 需 要 创建 面向 特定 领域 的 词 向 量 模型 。 由 于 Mikolov 训练 Word2vec 模型 时 
使 用 的 是 2006 年 之 前 的 谷歌 新 闻 , 所 以 如 果 NLP 流水 线 处 理 的 文本 中 词 的 用 法 在 当时 的 谷歌 新 
闻 中 找 不 到 , 那么 可 以 通过 定制 化 词 向 量 来 提高 模型 的 精确 率 。 需 要 注意 的 是 ,定制 化 词 向 量 需 
要 大 量 的 文档 ， 就 像 之 前 谷歌 和 Mikolov 所 做 的 那样 。 另 外 ， 如 果 有 些 词 在 谷歌 新 闻 中 很 罕见 ， 
或 者 这 些 词 在 特定 领域 有 一 些 特定 用 法 , 如 医学 文本 或 成 绩 单 等 , 那么 面向 特定 领域 的 词 向 量 模 
型 也 可 以 提高 模型 精确 率 。 在 下 一 节 中 ， 我 们 将 展示 如 何 训练 定制 化 的 Word2vec 模型 。 

为 了 训练 特定 领域 的 Word2vec 模型 , 需要 再 次 用 到 gensim 库 , 另外 , 在 开始 训练 模型 之 前 ， 
还 需要 对 语料库 进行 预 处 理 ， 这 里 会 用 到 在 第 2 章 中 提 到 的 工具 。 


1， 巴 处理 阶 段 


首先 , 需要 把 文档 拆 分 为 句子 , 然后 将 句子 拆 分 为 词 条 。gensimword2vec 模型 接收 的 输入 是 
一 个 句子 列表 , 其 中 每 个 句子 都 已 经 切 分 为 词 条 。 这 样 可 以 确保 词 向 量 模型 不 会 学 习 到 相 邻 句子 
中 出 现 的 无 关 词 。 训 练 输入 应 该 类 似 于 以 下 结构 : 
>>> token list 
[ 
['to', 'provide', 'early', 'intervention/early', 'childhood', 'special', 
'education', 'services', 'to', 'eligible', '‘'children', '‘'and', 'their', 
'families'], 































































































['essential', 'job', 'functions'], 
['participate', 'as', 'a', 'transdisciplinary', 'team', 'member', 'to', 
'complete', 'educational', 'assessments', 'for'] 


] 


可 以 应 用 在 第 2 章 中 学 习 的 各 种 将 句子 分 段 并 将 句子 切 分 为 词 条 的 策略 。NLTK 和 gensim 
中 可 以 用 经 过 精度 优化 的 莫 尔 斯 检测 器 。 一 旦 将 文档 转换 为 词 条 列表 的 列表 ( 每 个 列表 对 应 一 


























Q@ 莫 尔 斯 检测 器 ( Detector Morse )， 由 Kyle Gorman 和 OHSU 发 布 , 在 pypi 和 GitHub 网 站 上 均 可 获取 ， 是 一 

个 性 能 非常 好 (98% ) 的 句子 分 段 器 ,在 《华尔街 日 报 》 多 年 的 文章 上 进行 的 预 训练 。 所 以 ， 如 果 大 家 使 
的 语料库 中 包含 了 与 《华尔街 日 报 》 类 似 的 语言 ， 莫 尔 斯 检测 器 有 可 能 会 给 出 目前 可 能 的 最 高 精度 。 
如 果 有 大 量 的 领域 相关 的 句子 ， 那 么 也 可 以 在 自己 的 数据 集 上 训练 莫 尔 斯 检测 器 。 
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个 句子 )， 接 下 来 就 可 以 进行 Word2vec 的 训练 了 。 
2. 训练 面向 特定 领域 的 Word2vec 模型 
首先 加 载 Word2vec 模块 : 


>>> from gensim.models.word2vec import Word2Vec 


需要 对 训练 过 程 进 行 一 些 设置 ， 如 代码 清单 6-2 所 示 。 


代码 清单 6-2 ”Word2vec 模型 训练 参数 





词 向 量 库 较 小 ， 可 以 将 最 低 词 频 设置 得 小 一 点 ， 


向 量 元 素 的 数量 ( 维度 ) 表示 Word2vec 模型 中 词 的 最 低 词 频 , 如 果 语 料 
>>> num features = 300 如 果 语 料 库 较 大 ， 可 以 适当 增 大 一 点 








>>> num workers = 


训练 使 用 的 CPU 核 数 ， 如 果 要 动态 设置 核 数 ， 
可 以 导入 multiprocessing, 设置 num workers = 
multiprocessing.cpu_count() 





= 2 
>>> window size = 6 
>>> subsampling = 1 











高 频 词 条 降 采 样 率 | 口 大 小 





现在 可 以 开始 训练 了 ， 如 代码 清单 6-3 所 示 。 


代码 清单 6-3 ”Word2vec 模型 实例 化 


>>> model = Wordq2Vec ( 
token list, 
workers=num workers, 
size=num features, 
min count=min word count, 
window=window_ size, 
sample=subsampling) 


训练 过 程 比 较 耗 时 , 具体 训练 时 长 将 取决 于 语料库 的 规模 和 CPU 性 能 。 对 于 较 小 的 语料库 ， 
几 分 钟 就 能 完成 训练 。 但 是 如 果 想 要 训练 得 到 一 个 综合 的 词 模型 , 语料库 就 需要 包含 数 百 万 个 句 
子 , 语料库 中 每 个 词 的 不 同 用 法 都 需要 有 许多 对 应 的 样本 。 对 于 较 大 的 语料库 ,如 维基 百科 语 料 
库 ， 训 练 时 间 会 更 长 ， 内 存 消耗 也 会 更 大 。 
Word2vec 模型 消耗 的 内 存 很 大 ， 但 是 其 中 只 有 隐藏 层 的 权重 矩阵 有 意义 。 一 旦 词 向 量 模型 
训练 完成 , 则 可 以 通过 冻结 模型 以 及 丢弃 不 必要 的 信息 来 减少 大 约 一 半 的 占用 内 存 。 下 面 的 命令 
将 丢弃 神经 网 络 中 不 需要 的 输出 权重 : 


>>> model.init sims (replace=True) 


init sims 方法 将 冻结 模型 ， 存 ee 在 大 多 数 
Word2vec 应 用 中 不 会 用 到 这 个 输出 权重 。 不 过 ,一 旦 丢弃 输出 层 的 权重 ， 以 后 将 无 法 进一步 训 
练 模型 了 。 
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可 以 使 用 以 下 命令 保存 已 训练 的 模型 ， 供 以 后 使 用 : 


>>> model name = "my domain _ specific word2vec model™" 
>>> model.save (model name) 


可 以 使 用 前 一 节 中 学 到 的 方法 来 测试 这 个 新 训练 的 模型 ， 如 代码 清单 6-4 所 示 。 





代码 清单 6-4 “加载 保存 的 Word2vec 模型 





>>> from gensim.models.word2vec import Word2Vec 

>>> model name = "my domain specific word2vec model™" 
>>> model = Word2Vec.1load (model name) 

>>> model.most similar('radiology') 


6.2.5 Word2vec 和 GloVe 


Word2vec 是 一 个 巨大 的 突破 ， 但 它 依 赖 于 必须 经 反 向 传播 来 训练 的 神经 网 络 模型 。 反 向 传 
播 在 效率 上 通常 不 如 使 用 梯度 下 降 法 直接 优化 的 代价 函数 。 由 Jeffrey Pennington 领导 的 斯 坦 福 大 
学 NLP 研究 团队 研究 了 Word2vec 的 工作 原理 , 并 从 中 找到 可 优化 的 代价 函数 。 他 们 计算 词 的 共 
现 次 数 并 记录 在 一 个 正方 形 和 矩阵 中 。 他 们 发 现 可 以 对 这 个 共 现 矩阵 进行 奇异 值 分 解 "， 分 解 得 到 
的 两 个 权重 矩阵 的 意义 与 Word2vec 产生 的 完全 相同 “。 关 键 点 在 于 用 同样 的 方法 对 共 现 矩阵 进行 
归 一 化 。 在 某 些 情况 下 ，Word2vec 模型 无 法 收敛 ， 而 斯 坦 福 大 学 的 研究 人 员 能 够 通过 他 们 提出 
的 SVD 方法 得 到 全 局 最 优 解 。 这 个 方法 是 对 词 共 现 的 全 局 向 量 (在 整个 语料库 中 的 共 现 ) 直接 
进行 优化 ， 因 此 命名 为 GloVe ( global vectors of word co-occurrences )。 

GloVe 可 以 产生 相当 于 Word2vec 输入 权重 和 矩阵 和 输出 权重 和 矩阵 的 和 矩阵， 其 生成 的 语言 模型 具 
有 与 Word2vec 相同 的 精确 率 ， 而 且 花 费 的 时 间 更 少 。Glove 通过 更 高 效 地 使 用 数据 来 加 速 训练 
进程 。 它 可 以 在 较 小 的 语料库 进行 训练 ， 并 仍然 能 够 收敛 。SVD 算法 已 经 改进 了 几 十 年 ， 所 以 
Glove 在 调试 和 算法 优化 方面 很 有 优势 。 相 比 之 下 ,Word2vec 依赖 反 向 传播 来 更 新 表示 词 伐 人 的 
权重 ， 而 神经 网 络 的 反 向 传播 效率 低 于 GloVe 使 用 的 SVD 这 种 更 成 熟 的 优化 算法 。 

尽管 Word2vec 首先 普及 了 基于 词 向 量 进行 语义 推理 的 概念 ， 不 过 大 家 还 是 应 当 尽 量 使 用 
Glove 来 训练 新 的 词 向 量 模型 。 通 过 GloVe， 大 家 更 有 可 能 找到 词 向 量 表示 的 全 局 最 优 解 ， 从 而 
得 到 更 精确 的 结果 。 

Glove 的 优点 如 下 : 

图 ”训练 过 程 更 快 ; 

加 更 有 效 地 利用 CPU、 内 存 ( 可 以 处 理 更 大 规模 的 文档 ); 

加 更 有 效 地 利用 数据 ( 对 小 型 语料库 有 帮助 ); 

























































































GD 要 获得 更 多 SVD 细节 ， 可 参阅 第 $ 章 及 附录 C。 

@) GloVe: Global Vectors for Word Representation, 作者 是 Jeffrey Pennington、Richard Socher 和 Christopher D. 
Manning。 

(@ gensim 上 Word2vec 与 GloVe 的 效果 对 比 。 
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加 在 相同 训练 次 数 的 情况 下 精确 率 更 高 。 


6.2.6 fastText 





Facebook 的 研究 人 员 将 Word2vec 的 概念 又 向 前 推进 了 一 步 "， 在 模型 训练 中 加 入 了 一 个 新 
花样 。 他 们 将 新 算法 命名 为 fastText， 与 Word2vec 中 预测 周围 词 不 同 , 该 算法 预测 周转 的 个 字 
符 。 例 如 ,“whisper” 将 生成 以 下 两 字符 的 gram 和 3 字符 的 gram: 

















wh, whi, hi, his, is, isp, sp, Spe, pe, per, er 


fastText 为 每 个 n 字符 的 gram 训练 一 个 向 量 表示 ， 其 中 包括 词 、 拼 错 的 词 、 词 片段 ,其 至 单 
个 字符 。 这 种 方法 比 原来 的 Word2vec 能 够 更 好 地 人 处理 罕见 词 。 

Facebook 在 发 布 fastText 算法 的 同时 ， 也 发 布 了 294 种 语言 的 fastText 预 训练 模型 。 在 Facebook 
research 的 GitHub 页 面 上 ， 大 家 可 以 找到 从 阿布 哈 效 语 ( Abkhazian ) 到 祖 鲁 语 (Zulu ) 的 模型 ,模型 
其 至 还 包含 一 些 罕见 的 语言 ， 如 只 有 少数 德国 人 说 的 院 特 兰 弗 里 西亚 语 ( Saterland Frisian )。Facebook 
提供 的 fastText 预 训练 模型 只 在 维基 百科 语料库 上 进行 了 训练 ， 因 此 ， 不 同 语言 对 应 的 词汇 表 和 
模型 精确 率 会 有 所 不 同 。 


如 何 使 用 预 训练 fastText 模型 


fastText 的 用 法 与 谷歌 的 Word2vec 模型 一 样 。 在 fastText 模型 存储 库 中 下 载 对 应 语言 的 bin 
和 text 格式 的 模型 。 下 载 完成 后 ， 解 压缩 二 进 制 文件 ， 然 后 用 以 下 代码 把 它 加 载 到 gensim 中 : 
如 果 大 家 使 用 gensim 3.2.0 之 前 的 版 本 ， 则 需要 将 这 
行 修改 为 : from gensim.models.wrappers.fasttext import 
FastText 


>>> from gensim.models.fasttext import FastText 
>>> ft model = FastText.load fasttext format(\ 


a ae 
imilar E 
二 bin 文件 和 vec 文件 的 目录 
模型 加 载 完成 后 ， 就 可 以 和 8 

































































ensim 


中 的 其 他 词 向 量 模型 一 样 使 用 了 


gensim 提供 的 fastText API 的 功能 与 Word2vec 基本 一 致 。 在 本 章 前 面 学 习 的 所 有 方法 也 适 
用 于 fastText 模型 。 





























6.2.7 Word2vec 和 LSA 


现在 ， 大 家 可 能 想 知道 Word2vec 和 GloVe 词 向 量 与 第 4 章 中 的 LSA 主题 - 词 向 量 之 间 有 什 





QD Bojanowski 等 人 的 “Enriching Word Vectors with Subword Information”。 
@) 详 见 标题 为 “fastText/pretrained-vectors.md at master” 的 网 页 。 
@) en.wiki.zip 文件 大 小 为 9.6 GB。 
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么 区 别 。 尽 管 在 第 4 章 中 我 们 没有 对 LSA 主题 -文档 向 量 介 绍 太 多 , 但 是 LSA 主题 - 词 向 量 也 为 
我 们 提供 了 词 向 量 表征 。LSA 主题 -文档 向 量 是 这 些 文档 中 所 有 词 的 主题 - 词 向 量 的 和 。 在 
Word2vec 中 ,如果 想 要 得 到 一 个 对 于 整 篇 文档 的 与 主题 -文档 向 量 类 似 的 词 向 量 ， 需 要 对 文档 中 
的 所 有 Word2vec 词 向 量 求 和 。 这 与 Doc2vec 文档 癌 量 的 原理 十 分 接近 。 我 们 将 在 本 章 的 后 续 部 
分 作 详 细 介 绍 。 

如 果 主 题 向 量 的 LSA 矩阵 大 小 为 Ney * Nay， 则 LSA 矩阵 中 的 行 就 是 LSA 词 向 量 。 这 些 
行 向 量 用 200 到 300 个 实 值 的 序列 来 表示 词 的 含义 ， 这 与 Word2vec 类 似 。LSA 主题 - 词 向 量 对 
于 发 现 相关 词 项 和 不 相关 词 项 都 很 有 用 。 正 如 在 GloVe 中 讨论 过 的 ， 可 以 使 用 与 LSA 中 原理 完 
全 相同 的 SVD 算法 来 创建 Word2vec 向 量 。 但 是 通过 创建 交友 文档 的 滑动 窗口 ，Word2vec 可 以 
更 有 效 地 利用 文档 中 相同 数量 的 词 。 通过 该 方法 可 以 对 相同 的 词 重复 使 用 5 次 ( 指 窗 口 大 小 为 5 )。 

在 增 量 式 训练 或 在 线 式 训练 方面 的 表现 如 何 呢 ? LSA 和 Word2vec 算法 都 支持 向 语料库 添加 
新 文档 , 并 根据 新 文档 中 词 共 现 的 情况 来 调整 现 有 的 词 向 量 , 但 只 有 词汇 表 中 已 有 的 词 可 以 得 到 
更 新 。 如 果 要 在 模型 中 添加 新 闻 ， 将 会 改变 词汇 表 的 大 小 ， 进 而 导致 词 对 应 的 独 热 向 量 发 生 改 变 ， 
这 样 的 话 就 需要 重新 开始 训练 。 

LSA 的 训练 速度 比 Word2vec 更 快 ， 而 且 在 长 文档 分 类 和 聚 类 方面 ，LSA 的 表现 更 好 。 

Word2vec 的 “杀手 级 应 用 ”是 它 推广 的 语义 推理 。LSA 主题 - 词 向 量 也 可 以 做 到 这 一 点 , 但 
通常 并 不 精确 。 如 果 想 要 得 到 接近 于 Word2vec 推理 的 效果 ， 我 们 必须 把 文档 分 成 句子 ， 然 后 只 
使 用 这 些 短 句 来 训练 LSA 模型 。 通 过 Word2vec, 我们 可 以 得 到 类 似 于 “ 哈 利 波 特 + 大 学 = 起 
格 沃 交 ”这 种 问题 的 答案 。 

LSA 的 优点 是 : 

田 训练 速度 快 ; 

国 长 文本 的 区 分 度 更 好 。 

Word2vec 和 GloVe 的 优点 是 : 

国 ”对 大 型 语料库 的 利用 更 有 效 ; 

加 在 回答 类 比 问题 等 用 词 推理 的 领域 更 精确 。 
























































































































































6.2.8 词 关 系 可 视 化 
语义 词 之 间 的 关系 非常 有 用 , 通过 可 视 化 可 以 得 到 一 些 有 趣 的 发 现 。 在 本 节 中 , 我 们 将 演示 
如 何在 二 维 平面 上 进行 词 向 量 可 视 化 的 步骤 。 


注意 ”如果 想 要 快速 地 对 词 向 量 模型 
视 化 功能 。 若 想 要 了 解 更 多 细节 ， 参 








进行 可 视 化 ， 我 们 强烈 建议 使 用 谷歌 的 TensorBoard 词 替 入 可 
见 13.6 节 。 





J 作为 Word2vec 模型 在 特定 领域 中 的 一 个 很 好 的 例子 ， 可 以 看 看 在 哈 利 波 特 、 指 环 王 等 数据 上 训练 出 的 
模型 。 
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首先 ， 我 们 从 谷歌 新 闻 语 料 库 的 Word2vec 模型 中 加 载 所 有 词 向 量 。 可 想 而 知 ， 这 个 语料库 
中 包含 了 很 多 关于 波 特 兰 、 俄 勒 风 以 及 许多 其 他 城市 和 州 的 名 字 。 大 家 可 以 使 用 nlpia 包 来 快速 
上 手 使 用 Word2vec 向 量 ， 如 代码 清单 6-5 所 示 。 





代码 清单 6-5 


import os 


nlpia 加 载 预 训 练 的 Word2vec 模型 


>>> from nlpia.loaders import get data 
>>> from gensim.models.word2vec import KeyedVectors 
>>> wv = get data('word2vec') 旺 
四 预 训练 的 公 歌 新 闻 词 向 量 
Re 下 载 预 训练 的 谷歌 新 闻 词 向 量 到 


nlpia/src/nlpia/bigdata/GoogleNews- 


3000000 
vectors-negative300.bin.gz 


和 


警告 ”谷歌 新 闻 的 Word2vec 模型 非常 庞大 : 包含 300 万 个 词 ， ， 300 个 向 量 维 数 。 完 整 的 词 
向 量 模型 需要 3 GB 可 用 内 存 。 如 果 可 用 内 存 有 限 或 者 只 想 快 速 加 载 一 些 最 常见 的 词 条 ， 参见 第 13 章 。 


现在 ，gensim 中 的 KeyedVectors 对 象 拥有 一 个 包含 300 万 个 Word2vec 向 量 的 表 。 我 们 
从 谷歌 的 Word2vec 模型 文件 中 加 载 这 些 向 量 ， 该 模型 文件 是 基于 谷歌 新 闻 文章 的 大 型 语料库 进 
行 训 练 的 ， 在 这 些 新 闻 报 道中 , 包含 了 大 量 关 于 州 和 城市 的 词 。 代 码 清 单 6-6 中 只 显示 了 词汇 表 
中 从 第 100 万 个 词 开始 的 几 个 词 。 











代码 清单 6-6 ”Word2vec 词 频 





>>> import pandas as pd 

>>> vocab pd.Series (wv.vocab) 

>>> vocab.iloc[1000000:100006] 

Illington Fund Vocab (count:447860, index:2552140) 


Illingworth 


Illingworth Halifax 


Illini 
IlliniBoard.c 
Illini Bluffs 


Vocab (count:2905166, index:94834) 


Vocab (count:1984281, 


index:1015719) 


Vocab (count:2984391, index:15609) 


Vocab (count:1481047, 
Vocab (count:2636947, 


om 


index:1518953) 
index:363053) 


主意 ,复合 词 和 常见 的 n-gram 由 下 划 线 (“”) 连 





连接 在 一 起 。 另 外 ， 键 值 映射 中 的 值 是 一 个 





Sh 对 象 ， 它 不 仅 包 含 了 一 个 词 对 应 的 Word2vec 向 量 的 索引 位 置 ， 还 包含 了 该 词 在 
谷歌 新 闻 语 料 库 中 出 现 的 次 数 。 
如 前 所 述 , 如 果 要 检索 某 个 词 或 n-gram 的 300 维 向 量 , 可 以 在 这 个 KeyedVectors 对 象 上 





使 用 方 括号 来 执行 ._getitem  (): 
| 
array([ 0.15625 2 0.18652344, O530203L25> QDD859395y 0.03637695, 
-0.09375 人 人 670 0525 了 0.09912109, 
-0.0291748 ， 0,39257812> 0.05395508, 0 353515627 =0.02270508. 











我 们 之 所 以 选择 从 第 100 万 个 词 开始 〈 按 词 的 字母 顺序 )， 是 因为 前 几 千 个 “ 词 ” 都 是 标点 
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符号 序列 ， 如 ““#” 以 及 其 他 一 些 在 谷歌 新 闻 语 料 库 中 经 常 出 现 的 标点 符号 。 正 巧 “Illlini” 出 现 
在 我 们 挑选 的 这 个 词 列 表 中 "。 我 们 看 看 “llini” 向 量 与 “Illinois” 向 量 的 距离 有 多 近 ， 如 代码 
清单 6-7 所 示 。 


代码 清单 6-7 


Ilinois 与 lllini 的 距离 


>>> import numpy as np 





>>> np.linalg.norm(wv['Illinois'] - wv['Illini']) de 
3.3653798 | 欧 几 里 得 距离 
>>> cos similarity = np.dot (wv['Illinois'], wv['Illini']) / ( 
np.linalg.norm(wv['Illinois']) *\ 
np.linalg.norm(wv['Illini'])) 





余弦 相似 度 是 归 一 化 的 点 积 


>>> cos_ similarity 


0.5501352 
>>> 1 - cos similarity 
0.4498648 余弦 距离 


这 些 距 离 值 表示 “Illinois” 和 “Ilini” 这 两 个 词 在 含义 上 只 有 一 定 程 度 的 相近 。 

nn 它们 之 间 的 距离 将 它们 绘制 在 二 
维 语义 图 上 。 那 么 如 何在 这 个 KeyedVectors 对 象 的 Word2vec 词汇 表 中 找到 所 有 的 城市 和 州 
呢 ? 大 家 可 以 像 之 前 那样 ， 利 用 余弦 距离 求 出 所 有 与 “ 州 ”或 “城市 ”相近 的 向 量 ， 但 是 这 样 就 
需要 遍历 所 有 300 万 个 词 及 其 对 应 的 词 向 量 。 我们 也 可 以 换个 方法 ， 即 加 载 男 一 个 数据 集 ， 其 中 
包含 世界 各 地 的 城市 和 州 ( 地 区 ) 的 列表 ， 如 代码 清单 6-8 所 示 。 


代码 清单 6-8 ”美国 城市 数据 


>>> from nlpia.data.loaders import get data 

















>>> cities = get datal('cities') 

>>> cities.head(1).T 

geonameid 3039154 
name El Tarter 
asciiname El Tarter 
alternatenames il Tator 
latitude 42.5795 
longitude .05362 
feature class P 
feature code PPL 
country_code AD 
GC2 NaN 
adminl code 02 
admin2 code NaN 
admin3_code NaN 
admin4 code NaN 
population 1052 
elevation NaN 











GD “Tllini” 这 个 词 指 的 是 


群 人 ,通常 是 足球 运动 员 和 球迷 ， 而 不 是 一 个 像 “Tllinois” 











伊利 诺 伊 人 队 ” 的 大 部 分 粉丝 住 在 那里 )。 
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dem L772 
timezone Europe/Andorra 
modification date 2012311503 





这 个 来 自 Geocities 的 数据 集 包 含 了 许多 信息 , 包括 纬度 、 经 度 和 人 口 。 大 家 可 以 用 它 来 进 
行 一 些 有 趣 的 可 视 化 ， 也 可 以 用 来 对 比 地 理 距离 和 Word2vec 距离 。 不 过 现在 我 们 只 是 将 
Word2vec 距离 映射 到 二 维 平 面 上 ,看 看 它 是 什么 样子 的 。 目 前 我 们 仅 关注 美国 ， 如 代码 清单 6-9 
所 示 。 


代码 清单 6-9 ”美国 州 数据 


>>> us = cities[ (cities.country code == 'US') &\ 
(cities.adminl code.notnull())].copy() 
>>> states = pd.read csv(\ 
'http://www.fonz.net/blog/wp-content/uploads/2008/04/states.csv') 
>>> states = dict (zip(states.Abbreviation, states.state)) 


>>> us['city'] = us.name.copy() 
>>> us['st'] = us.adminl code.copy() 
>>> us[l'state'] = us.st.map (states) 
>>> us[us.columns[-3:]] .head() 
CS state 
geonameid 
4046255 Bay Minette AL Alabama 
4046274 Edna TXx Texas 
4046319 Bayou La Batre AL Alabama 
4046332 Henderson TX Texas 
4046430 Natalia TX Texas 


现在 ， 除 了 缩写 ， 还 为 每 个 城市 提供 了 一 个 完整 的 州 名 。 我 们 检查 看 看 Word2vec 词汇 表 中 
有 哪些 州 名 和 城市 名 : 


>>> vocab pd.np.concatenate([us.city, us.st, us.statel]) 

>>> vocab np.array ([word for word in vocab if word in wv.wv]) 
>>> vocab[:5] 

array(['Edna', 'Henderson', 'Natalia', ‘'Yorktown', 'Brighton']) 


我 们 发 现 ， 即 使 只 看 美国 的 城市 ,， 也 会 有 很 多 同名 的 大 城市 ， 如 俄勒冈 州 的 波 特 兰 市 和 缅 因 
州 的 波 特 兰 市 。 所 以 需要 把 城市 所 在 州 的 属性 融入 城市 向 量 中 。 在 Word2vec 中 ， 可 以 通过 向 量 
相 加 来 对 词 的 含义 进行 组 合 。 这 就 是 面向 向 量 推理 的 神奇 之 处 。 大 家 可 以 将 州 的 Word2vec 词 向 
量 加 到 城市 词 向 量 上 , 然后 将 得 到 的 新 问 量 放 到 一 个 大 的 DataFrame 中 。 这 里 的 州 名 可 以 用 全 称 
或 者 简称 (无论 在 Word2vec 词汇 表 中 的 是 哪个 )， 如 代码 清单 6-10 所 示 。 
































代码 清单 6-10 ”通过 州 词 向 量 增强 的 城市 词 向 量 





>>> city plus_state = [] 
>>>" fOr Or Stater St Ln Lip (usuoLty, USuStatey "USSty 
Lf enot ‘in vocab: 
continue 
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row = [] 
if state in vocab: 
row.extend (wv[c] + wvl[lstatel]) 
else: 
row.extend (wv[c] + wv[st]) 
2 city plus_ state.append (row) 
>>> us_300D = pd.DataFrame (city plus_ state) 


根据 语料库 的 内 容 , 词 关系 可 以 代表 不 同 的 属性 , 例如 地 理 位 置 上 接近 或 者 经 济 、 文 化 上 相 
似 等 。 但 是 这 种 关系 在 很 大 程度 上 依赖 于 训练 语料库 : 它们 直接 反映 语料库 。 


词 向 量 是 有 偏见 的 ! 

词 向 量 根据 训练 语料库 来 学 习 词 之 间 的 关系 。 如 果 语 料 库 是 关于 金融 的 ， 那 么 “bank” 的 词 向 量 将 

主要 与 存款 业务 相关 。 如 果 语 料 库 是 关于 地 质 学 的 ， 那 么 “bank” 的 词 向 量 将 被 训练 为 与 河流 和 小 溪 相 

关 。 如 果 语 料 库 的 内 容 主 要 是 关于 母系 社会 的 ， 如 女 银行 家 以 及 在 河 里 洗衣 服 的 男人 们 ， 那 么 我 们 得 到 

的 词 向 量 将 会 带 有 性 别 偏见 。 
下 面 的 例子 展示 了 在 谷歌 新 闻 报道 上 训练 得 到 的 词 向 量 模 型 的 性 别 偏见 。 如 果 大 家 计算 “男人 ”和 

“护士 ”之 间 的 距离 ， 并 将 其 与 “女人 ”和 “护士 ”之 间 的 距离 进行 比较 ， 就 会 看 到 这 种 偏见 : 


















































































































































>>> word model.distance('man', 'nurse') 
0.7453 
>>> word model.distance('woman', 'nurse') 
0 -558% 


要 在 带 有 偏见 的 文档 中 训练 模型 ， 如 何 去 识 别 和 消除 这 样 的 偏见 对 NLP 从 业者 来 说 是 一 个 挑战 。 


训练 语料库 中 的 新 闻 文章 有 一 个 共同 的 组 成 部 分 ， 即 城市 的 语义 相似 性 。 文 章 中 语义 相似 
的 位 置 看 起 来 是 可 互 换 的 ， 因 此 词 向 量 模 型 会 学 到 这 种 相似 性 。 如 果 使 用 不 同 的 语料库 训练 ， 
那么 词 关 系 可 能 会 有 所 不 同 。 在 这 个 新 闻 语 料 库 中 ,一 些 大 小 和 文化 相似 的 城市 尽管 在 地 理 位 
置 上 相距 其 远 , 但 在 语义 上 却 紧 密 地 聚合 在 一 起 ， 如 圣迭戈 和 圣何塞 ,或 者 一 些 度假 胜地 如 村 
香山 和 雷诺 等 。 

幸运 的 是 , 我 们 可 以 使 用 传统 代数 方法 将 城市 名 向 量 加 到 州 名 和 州 名 缩写 的 向 量 中 。 正 如 在 
第 4 章 中 所 述 ， 大 家 可 以 使 用 主 成 分 分 析 (PCA ) 等 工具 , 将 向 量 维 数 从 原来 的 300 维 压 缩 到 人 
类 可 理解 的 二 维 表示 。 通 过 PCA 使 大 家 能 够 看 到 这 些 300 维 的 向 量 在 二 维 图 中 的 投影 或 者 “ 阴 
影 ”。 最 重要 的 是 , PCA 算法 能 够 让 向 量 之 间 尽 可 能 地 分 开 , 以 确保 这 个 投影 是 数据 的 最 佳 视图 。 
PCA 就 像 一 个 好 的 摄影 师 ， 它 从 各 种 可 能 的 角度 对 数据 进行 观察 ， 然 后 拍 出 最 佳 照片 。 大 家 其 
至 不 必 在 “城市 名 + 州 名 + 州 名 缩写 ”向 量 求 和 运算 后 对 向 量 的 长 度 进行 归 一 化 ， 因 为 PCA 
会 自行 处 理 这 个 问题 。 

我 们 在 nlpia 包 中 保存 了 这 些 增强 的 城市 词 向 量 ， 以 便 可 以 在 应 用 程序 中 加 载 使 用 。 在 代码 
清单 6-11 中 ， 我 们 使 用 PCA 将 其 投影 到 二 维 图 上 。 
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代码 清单 6-11 ”美国 城市 气泡 图 














用 PCA 生成 用 于 可 视 化 的 二 维 向 


量 , 并 保留 原来 的 300 维 Word2vec 
>>> from sklearn.decomposition import PCA 向 量 , 便于 做 向 量 推 理 


>>> pca = PCA(n components=2) 
>>> us_300D = get datal('cities us wordvectors') 


> US 2D s Poa tit transtorm(us 300D. TL16ocl:; <3001) 
这 个 DataFrame 的 最 后 一 列 包 含 了 城市 名 , 在 


DataFrame 的 索引 中 也 同样 保存 了 一 份 
图 6-8 展示 了 所 有 这 些 300 维 美国 城市 词 向 量 的 二 维 投影 。 























Size: population 
Memphis, Nashville， Houston and Dallas 人 
Charlotte, Raleigh, and Atlanta nearly coincide. . 




















4 Ft. Worth 局 America/Phoenix 
pp @ America/New_York 
Ai ica/Anchr 
3 Bp .0..° EtPaso anne ne ape 
2 0's @* :e 网 】 @ America/Los_Angeles 
. . 二 icat 
的 本 日 San Diego 3 Pasfegoreu 
A ‘Denv 
1 0 LA, SF, and San Jose EH A ie 
二 America/Chicago 
y 0 SS “了 
* 
”| i 
: 人 二 AN 
_2 - 9. ~ yd 到 Honolulu, Reno, ” 
3 3% :© Mesa, Tempe, and Phoenix 
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Chicago, Indianapolis, Xx 


Columbus, and Philadelphia 


图 6-8 谷歌 新 闻 300 维 词 向 量 通过 PCA 在 二 维 地 图 上 的 投影 





注意 ”低语 义 距离 (接近 零 的 距离 值 ) 表示 词 相似 度 高。 语义 距离 ， 或 “意义 ”距离 ,是 由 训练 文档 中 
相 邻 出 现 的 词 决 定 的 。 如 果 两 个 词 经 常用 于 相似 的 上 下 文中 (与 附近 相似 的 词 一 起 使 用 )， 则 它们 的 
Word2vec 词 向 量 在 词 向 量 空间 中 也 会 比较 接近 。 例如， 旧金山 和 加 利 福 尼 亚 之 间 的 向 量 距 离 就 很 近 ， 
因为 它们 经 常 在 句子 中 相 邻 出 现 ， 而 且 它 们 附近 的 词 的 分 布 也 是 相似 的 。 两 个 词 之 间 的 向 量 距 离 越 大 ， 
它们 之 间 共 享 上 下 文 和 共享 含义 的 可 能 性 就 越 小 (在 语义 上 是 不 同 的 ) 例如 汽车 和 花生 。 


如 果 大 家 想 查看 图 6-8 所 示 的 城市 地 图 ,或 者 想 亲 自动 手绘 制 词 向 量 分 布 图 , 代码 清单 6-12 
中 展示 了 如 何 进行 操作 。 我 们 为 Plotly 构建 了 离线 绘图 API 的 包装 器 ， 以 便 归 一 化 处 理 DataFrame 
数据 。Plotly 包装 器 的 输入 是 一 个 DataFrame， 其 中 的 行 表示 样本 ， 列 表示 待 绘制 的 特征 ， 可 以 
是 离散 特征 ( 如 时 区 )， 也 可 以 是 连续 实 值 特征 〈 如 城市 人 口 )。 由 此 产生 的 图 是 交互 式 的 ， 对 于 
各 种 机 器 学 习 数 据 的 探索 都 很 有 有 用， 特别 是 词 和 文档 这 种 复杂 事物 的 向 量 表示 。 





















































代码 清单 6-12 ”美国 城市 词 向 量 气泡 图 





>>> import seaborn 
>>> from matplotlib import pyplot as pilt 
>>> from nlpia.plots import offline plotly scatter bubble 
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>>> df = get datal('cities us wordvectors pca2 meta') 

>>> html = offline plotly scatter bubblel 
df.sort values ('population', ascending=False) [:350] .copy()\ 

.Sort Values ('population'), 

filename='plotly scatter bubble.html', 
X='x', y='y', 
size col='population', text col='name', category col='timezone', 
xscale=None, yscale=None, # 'log' or None 

人 layout={}, marker={'sizeref': 3000} 

{'sizemode': 'area', 'sizeref': 3000} 


为 了 生成 300 维 词 向 量 的 二 维 表示 ， 我 们 需要 使 用 降 维 技术 。 这 里 我 们 使 用 PCA， 通 过 减 小 
输入 向 量 中 包含 的 信息 涵盖 范围 ， 可 以 减少 维度 压缩 过 程 中 的 信息 损失 ， 所 以 就 像 在 计算 TF-IDF 
或 BOW 向 量 时 限制 语料库 的 领域 或 主题 一 样 ， 我 们 把 词 向 量 限制 在 与 城市 相关 的 概念 上 。 

对 于 包含 更 多 信息 内 容 的 不 同 混合 向 量 ， 大 家 可 能 需要 一 个 非 线性 咎 入 算法 ， 如 t-SNE。 我 
们 将 在 后 面 的 章节 中 讨论 fSNE 和 一 些 其 他 的 神经 网 络 技术 。 在 本 章 中 掌握 词 向 量 敬 入 算法 对 于 
后 面 理解 t-SNE 会 更 有 意义 。 



































6.2.9 非 自 然 词 


像 Word2vec 这 样 的 词 租 入 模型 不 仅 对 英文 词 有 用 ， 对 于 任何 具有 语义 的 符号 序列 ， 只 要 符 
号 的 序列 和 邻近 性 能 够 表示 其 意义 ,， 词 能 入 都 能 发 挥 作用 。 大 家 可 能 已 经 猜 到 了 , 词 租 入 也 适用 
于 英语 以 外 的 语言 。 

词 谍 入 也 适用 于 象形 语言 ， 如 传统 的 中 国 汉 字 和 日 本 汉字 或 者 埃及 坟墓 中 神秘 的 象形 文字 。 
词 般 入 和 基于 向 量 的 推理 甚至 适用 于 一 些 故 意 混 淆 了 词 含义 的 语言 , 大 家 可 以 用 词 向 量 对 大 量 的 
“秘密 ”消息 进行 基于 向 量 的 推理 ， 例 如 由 儿童 发 明 的 “儿童 黑 话 ”(Pig Latin )， 或 古 罗 马 皇 帝 
发 明 的 饥 搬 密 码 ( Caesar cipher )， 如 RO13 或 替换 密码 ( substitution cipher )， 都 很 容易 受到 基于 
向 量 的 Word2vec 推理 的 攻击 。 大 家 甚至 不 需要 解码 环 (如 图 6-9 所 示 )， 只 需要 一 个 大 的 消息 集 
合 或 n-gram 集合 ， 然 后 就 可 以 通过 Word2vec 词 能 入 来 查找 词语 符号 的 共 现 情况 。 























图 6-9 解码 环 ( 左 : Hubert Berberich (HubiB), CipherDisk2000， 标 记 为 公共 
领域 ， 要 获得 更 多 细节 ， 参 见 Wikimedia Commons; 中 : Cory Doctorow， 
Cryptowedding-ring 2; 右 : Sobebunny，Captain-midnight-decoder ) 
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Word2vec 其 至 可 以 用 来 从 非 自 然 的 词 或 ID 号 (如 大 学 课程 号 (CS-101 )、 像 Koala E7270 
或 Galaga Pro 一 样 的 产品 型 号 ， 甚 至 序列 号 、 电 话 号 码 和 邮编 ) 中 收集 信息 和 关系 。 要 获得 关 
于 像 这 样 的 ID 号 之 间 关 系 的 最 有 用 的 信息 ， 需 要 包含 这 些 ID 号 的 各 种 句子 。 如 果 有 D 号 包含 
有 意义 的 符号 位 置 结构 ， 将 有 助 于 把 这 些 ID 号 切 分 为 最 小 的 语义 包 (例如 自然 语言 中 的 词 或 


音节 ) 


















































6.2.10 ”利用 Doc2vec 计算 文档 相似 度 





Word2vec 的 概念 也 可 以 扩展 到 句子 、 段 落 或 整个 文档 。 根 据 前 面 的 词 预 测 下 一 个 词 的 想法 
可 以 扩展 到 训练 段落 或 文档 的 向 量 ( 如 图 6-10 所 示 )， 这 个 模型 不 仅 考虑 前 面 的 词 ， 还 考虑 了 段 
落 或 文档 的 向 量 表示 , 将 其 作为 额外 的 输入 来 进行 预测 。 随 着 时 间 的 推移 , 算法 将 从 训练 集中 学 
习 文档 或 段落 的 向 量 表 示 。 


预测 



















































































图 6-10 ”Doc2vec 训练 使 用 额外 的 文档 向 量 作为 输入 





训练 结束 后 ,如 何 为 未 知 文档 生成 文档 向 量 呢 ? 在 推理 阶段 ,该 算法 将 更 多 的 文档 向 量 添加 
到 文档 矩阵 中 , 并 根据 冻结 的 词 向 量 和 矩阵 来 计算 添加 的 向 量 及 其 权重 。 通 过 推断 文档 向 量 ， 大 家 
就 能 获得 整个 文档 的 语义 表示 。 

通过 在 词 预测 中 加 入 额外 的 文档 或 段落 向 量 ， 扩 展 了 Word2vec 的 概念 ， 现 在 大 家 可 以 在 各 
种 任务 中 使 用 训练 好 的 文档 向 量 ， 例 如 在 语料库 中 查找 相似 的 文档 。 






































如 何 训练 文档 向 量 
与 训练 词 向 量 类 似 ， 可 以 使 用 gensim 包 来 训练 文档 向 量 ， 如 代码 清单 6-13 所 示 。 
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代码 清单 6-13 ”训练 自己 的 文档 向 量 和 词 向 量 























gensim 利用 Python 多 线程 模块 在 多 核 gensim Doc2vec 模块 为 语 


a eh 0 a 料 库 中 的 每 篇 文档 包含 了 | | gensim 的 simple_preprocess 单 


词 向 量 戏 入 和 文档 向 量 元 是 一 个 粗 分 词 器 , 会 去 除 单 
字母 词 和 所 有 标点 符号 , 第 2 
章 中 介绍 的 其 他 的 分 词 器 也 












































>>> import multiprocessing 





>>> num cores = multiprocessing.cpu count() 











都 可 以 在 这 里 使 用 
>>> from gensim.models.doc2vec import TaggedDocument,\ < 二 一 
es Doc2Vec 
>>> from gensim.utils import simple preprocess < 一 


提供 一 个 逐条 遍历 文档 字 
>>> corpus = ['This is the first document ...',\ 符 串 的 对 象 


Se 'another document ...'] 
>>> training corpus = [] 


NS 个 
>>> for i, text in enumerate (corpus): MEAP reader 24231 建议 预先 分 配 一 人 numpy 数 











Sa tagged doc = TaggedDocument (\ 组 ， 而 个 是 一 个 庞大 的 python 列表 。 如 果 语 料 库 
Eh simple preprocess (text)，[i]) ”| 过 大 无 法 加 载 到 内 存 , 我 们 也 可 以 以 流 的 方式 从 
training corpus.append (tagged doc) 硬盘 或 数据 库 中 进行 加 载 








>>> model = Doc2Vec(size=100, min count=2, 
workers=num cores, iter=10) 

>>> model.build vocab (training corpus) 

>>> model.train (training corpus, total examples=model.corpus count, 
epochs=model .iter) 


gensim 提供 了 一 个 数据 结构 , 文 

















模型 开始 训练 之 前 需 















































持 用 字符 串 或 整数 标签 来 表示 a 0 
文档 的 类 别 标签 、 关 键 词 或 其 他 Se 


与 文档 关联 的 信息 





实例 化 一 个 Doc2vec 对 象 ， 滑 动 窗口 大 小 为 10 个 词 ， 每 个 
词 和 文档 向 量 100 维 ( 比 300 维 的 谷歌 新 闻 Word2vec 向 
量 小 得 多 )。min_count 是 词汇 表 中 文档 频率 的 最 小 值 











提示 “如 果 内 存 不 足 ， 并 且 在 预先 知道 文档 数量 (语料库 对 象 不 是 迭代 器 或 生成 器 ) 的 情况 下 ， 可 
以 为 training_ corpus 使 用 预 分 配 的 numpy 数组 而 不 是 Python 列表 : 


training corpus = np.empty(len(corpus), dtype=object); 
.. training corpus[i] = .… 


一 旦 Doc2vec 模型 训练 完成 , 大 家 便 可 以 在 已 实例 化 的 训练 好 的 模型 对 象 上 调用 infer_vector 
方法 ,来 对 新 的 未 见 过 的 文档 进行 文档 向 量 推理 : 


>>> model.infer vector (Simple_pPreprocess(\ 
"This is a completely unseen document'), steps=10) 


Doc2vec 在 做 新 向 量 推理 时 需要 
一 个 训练 步骤 ,在 本 例 中 , 通过 
10 步 (或 迭代 ) 来 更 新 向 量 


通过 这 几 个 步骤, 大 家 可 以 快速 训练 整个 语料库 的 文档 向 量 ， 并 查找 相似 文件 。 具 体 做 法 是 
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对 语料库 中 的 每 篇 文档 生成 一 个 文档 向 量 , 然后 计算 各 个 文档 向 量 之 间 的 余弦 距离 。 另 一 个 常见 
的 任务 是 将 语料库 的 文档 向 量 通过 类 似 于 大 均值 的 方法 进行 聚 类 ， 以 此 来 创建 文档 分 类 器 。 























6.3 小结 


图 大 家 已 经 学 习 了 如 何 利用 词 向 量 和 面向 向 量 的 推理 来 解决 一 些 奇妙 的 问题 ， 如 类 比 问题 
和 词 之 间 的 异 义 关系 。 

国 大 家 可 以 用 自己 应 用 程序 中 的 词 来 训练 Word2vec 和 其 他 词 向 量 舱 和 人 入， 以便 大 家 的 NLP 
流水 线 不 会 被 大 多 数 Word2vec 预 训练 模型 使 用 的 谷歌 新 闻 词 中 的 固有 含义 “污染 ”。 

图 使 用 gensim 来 对 词 向 量 进 行 探索 、 可 视 化 ， 以 及 构建 自己 的 词 向 量 表 。 

国 词 问 量 在 地 理 位 置 上 的 PCA 投影 ， 如 美国 城市 名 , 揭示 出 地 理 上 相距 遥远 的 城市 在 文化 
上 的 相近 。 

加 ”如 果 大 家 使 用 n-gram 语法 的 句子 边界 ,并 且 有 效 地 建立 词 对 进行 训练 ， 就 能 大 大 提高 潜 
在 的 语义 分 析 词 能 和 的 精确 性 ( 见 第 4 章 )。 
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本 章 主 要 内 容 

图 神经 网 络 在 NLP 中 的 应 用 

图 探索 词 模式 的 含义 

图 构建 CNN 模型 

图 利用 神经 网 络 向 量化 自然 语言 文本 
加 训练 CNN 模型 

国 文本 情感 分 类 


语言 的 真正 力量 不 在 于 文字 本 身 ， 而 在 于 文字 的 间隔 、 顺 序 以 及 词 的 各 种 组 合 。 有 时 候 ， 语 言 的 


























意义 隐藏 在 文字 的 背后 ,蕴含 在 形成 词 的 特定 组 合 的 意图 和 情感 中 。 无论 是 人 类 还 是 机 器 ， 
在 文字 背后 的 意图 ， 对 于 同 理 心 强 、 情 商 高 的 倾听 者 或 自然 语言 的 阅读 者 而 言 ， 都 是 一 项 重 




















理解 隐藏 
要 的 技能 。 


就 像 在 思想 和 观念 中 ， 正 是 词 之 间 的 联系 创造 了 语言 的 深度 、 信 息 度 和 复杂 度 。 除 了 理解 单个 词 的 含 
义 ， 词 之 间 还 有 各 种 各 样 巧妙 的 组 合 方式 ， 有 没有 一 些 比 n-gram 匹配 更 灵活 的 方法 ， 可 以 用 来 衡量 这 








些 组 合 词 的 意义 呢 ? 我 们 如 何 从 一 个 词 序列 中 得 到 语义 和 情感 一 一 隐 性 语义 信息 ， 从 而 利 月 


日 它 来 做 一 


些 事情 呢 7 更 进一步 地 说 ， 我 们 如 何 才能 将 这 种 隐藏 的 语义 传达 给 冰冷 的 计算 机 来 生成 文本 呢 ? 

“机 器 生成 的 文本 ”这 个 短语 甚至 让 人 联想 到 由 空洞 的 金属 声音 发 出 的 一 个 个 词 块 。 机 器 也 
许 能 让 人 明白 它 表达 的 意思 ,但 仅 此 而 已 。 其 中 缺少 的 是 什么 呢 ? 是 交流 过 程 中 人 们 变化 的 语调 、 
流利 度 以 及 即使 是 在 非常 短暂 的 交谈 中 , 人 们 也 期 待 表露 出 来 的 个 性 特点 ,这 些微 妙 之 处 存在 于 
字里行间 以 及 词 的 构建 模式 中 。 人 们 在 交流 时 , 会 在 他 们 的 文字 和 演讲 中 蕴含 各 种 语言 模式 。 伟 
大 的 作家 和 演讲 家 会 积极 运用 这 些 模 式 来 制造 非常 好 的 效果 。 人 们 天 生 有 具有 识别 这 些 模式 的 能 
力 ， 这 种 识别 甚至 是 在 无 意识 的 状态 下 进行 的 ， 而 这 也 正 是 机 需 生 成 的 文本 听 起 来 很 粳 糕 的 原因 ， 
因为 它们 不 具备 这 些 模 式 。 不 过 大 家 可 以 从 人 类 生成 的 文本 中 挖掘 这 些 模 式 ， 并 将 其 赋 给 机 器 。 

在 过 去 的 儿 年 里 , 围绕 神经 网 络 的 研究 迅速 开展 起 来 , 同时 出 现 了 大 量 可 用 的 开源 工具 , 神 





































































































@ 国际 促进 者 协会 手册 。 
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经 网 络 在 大 型 数据 集中 发 现 模式 的 能 力 得 到 大 幅 提升 ， 并 使 NLP 领域 发 生 了 巨大 的 转变 。 感 知 
机 迅速 转变 为 前 馈 网 络 〈 一 个 多 层 感知 机 )， 并 由 此 衍生 出 各 种 变 体 : 卷 积 神经 网 络 和 循环 神经 
网 络 ， 并 发 展 出 各 种 应 用 于 大 型 数据 集 上 模式 挖掘 的 更 为 有 效 和 准确 的 工具 。 

正如 大 家 看 到 的 Word2Vec 那样 ， 神 经 网 络 给 NLP 领域 带 来 了 一 个 全 新 的 方法 。 虽 然 设 计 神 经 
网 络 最 初 的 目的 是 作为 一 个 学 习 量 化 输入 的 机 右 ， 这 个 领域 已 经 从 只 能 处 理 分 类 、 回 归 问 题 ( 主题 
分 析 、 情 绪 分 析 ) 发 展 到 能 够 基于 以 前 未 见 过 的 输入 来 生成 新 文本 : 将 短语 翻译 为 男 一 种 语言 ， 对 
未 见 过 的 问题 生成 回复 ( 聊天 机 右 人 )， 甚 至 能 够 生成 基于 特定 作者 风格 的 新 文本 。 

完全 理解 神经 网 络 的 数学 原理 对 于 使 用 本 章 介绍 的 工具 并 不 重要 , 不 过 这 确实 有 助 于 加 强 我 
们 对 神经 网 络 内 部 如 何 运 作 的 认识 。 如 果 大 家 理解 了 第 5 章 中 的 例子 和 相关 解释 ,就 会 对 如 何 使 
用 神经 网 络 有 一 个 更 为 直观 的 认识 。 另 外 , 还 可 以 简化 神经 网 络 结构 ( 层 数 或 者 神经 元 数量 ) 来 
改进 效果 , 这 也 有 助 于 大 家 了 解 神经 网 络 如 何 赋予 聊天 机 器 人 深度 。 神 经 网 络 让 聊天 机 器 人 成 为 
一 个 很 好 的 、 从 表面 上 看 不 怎么 健谈 的 倾听 者 。 




































































71 语义 理解 


词 的 性 质 和 奥妙 与 词 之 间 的 关系 密切 相关 。 这 种 关系 至 少 有 两 种 表达 方式 。 
(1 ) 词 序 一 一 下 面 两 个 句子 含义 完全 不 一 样 : 


The dog chased the cat. 
The cat chased the dog. 


(2 ) 词 的 邻近 度 (proximity ) 一 一 下 面 句 子 的 “shone” 指 的 是 句子 男 一 端的 “hull”: 


The ship's hull, despite years at sea, millions of tons of cargo, and two mid-sea 
collisions, shone like new. 


这 些 关 系 的 模式 ( 以 及 词 本 身 存 在 的 模式 ) 可 以 从 两 个 方面 来 表示 : 空间 和 时 间 。 两 者 的 区 
别 主 要 是 : 对 于 前 者 , 要 像 在 书页 上 的 句子 那样 来 处 理 一 一 在 文字 的 位 置 上 寻找 关系 ; 对 于 后 者 ， 
要 像 说 话 那样 来 处 理 一 一 词 和 字母 变 成 了 时 间 序 列 数 据 。 这 两 者 是 密切 相关 的 , 但 是 它们 标志 
神经 网 络 处 理 方式 的 一 个 关键 区 别 。 空间 数据 通常 通过 固定 宽度 的 窗口 来 查看 ,而 时 间 序 列 则 可 
以 对 于 未 知 的 时 间 无 限 延 展 。 

基本 的 前 馈 网 络 ( 多 层 感 知 机 ) 能 够 从 数据 中 提取 模式 ， 这些 模式 来 自 与 权重 相关 的 输入 片段 ， 
但 它 无 法 捕获 到 词 条 在 空间 或 时 间 上 的 关系 。 不 过 前 馈 神 经 网 络 只 是 神经 网 络 结构 的 开端 部 分 ， 目 
前 ， 自 然 语 言 处 理 领 域 中 两 个 最 重要 的 模型 是 卷 积 神经 网 络 和 循环 神经 网 络 ， 以 及 它们 的 各 种 变 体 。 

在 图 7-1 中 ， 对 神经 网 络 输入 层 传人 3 个 词 条 。 每 个 输入 层 神 经 元 都 与 隐藏 层 神经 元 全 连接 ， 
并 各 自 具 有 不 同 的 权重 。 

提示 “怎样 将 词 条 传 入 网 络 呢 ?9 本 章 使 用 的 两 种 主要 方法 是 前 面 章节 中 使 用 的 独 热 编码 和 词 向 

量 。 大 家 可 以 对 输入 进行 独 热 编码 一 在 向 量 中 我 们 考虑 的 所 有 可 能 的 词 位 置 上 都 标记 为 0， 对 

正在 编码 的 词 的 位 置 标记 为 1。 或 者 ， 也 可 以 使 用 第 6 章 中 的 训练 好 的 词 向 量 。 总 之 ， 需 要 将 词 
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输出 层 输出 值 


图 7-1 全 连接 神经 网 络 
如 果 将 这 些 词 条 的 顺序 从 “See Jim run” 改 为 “run See Jim” 并 将 其 传 入 网络 中 ,不 出 所 料 ， 











会 得 到 一 个 不 同 的 结果 。 因 此 请 记 住 ,每 个 输入 位 置 与 每 个 隐藏 层 神经 元 都 有 一 个 特定 的 对 应 权 
重 (x 与 wi 相连 ,x 与 w 相连， 以 此 类 推 )。 

因为 词 条 同时 出 现在 一 个 样本 中 的 不 同位 置 , 所 以 前 馈 网 络 可 以 学 习 词 条 之 间 的 一 些 特定 关 
系 ， 但 是 大 家 可 以 很 容易 看 出 ， 对 于 5 个 、10 个 或 50 个 词 条 的 长 句子 ( 每 个 位 置 上 都 包含 所 有 
可 能 的 词 对 、 三 元 组 等 )， 这 会 成 为 一 个 玉 手 的 问题 。 幸 运 的 是 ， 我 们 还 有 其 他 可 选 方案 。 

















1.2 工具 包 


Python 是 神经 网 络 工 具 包 最 丰富 的 语言 之 一 。 虽 然 很 多 主要 的 参与 者 ( 如 谷歌 和 Facebook ) 
已 经 转移 到 较 低级 别 的 语言 以 便于 密集 计算 的 实现 ， 不 过 依然 留 下 了 用 Python 在 早期 模型 上 投 
人 大 量 资 源 进行 开发 的 痕 记 。 两 个 主要 的 神经 网 络 架 构 分 别 是 Theano 和 TensorFlow。 这 两 者 的 
底层 计算 深度 依赖 C 语言 ， 不 过 它们 都 提供 了 强大 的 Python API。Facebook 基于 Lua 语言 开发 
了 Torch， 它 在 Python 里 面 也 有 一 个 对 应 的 API 是 PyTorch。 这 些 框架 都 是 高 度 抽象 的 工具 
适用 于 从 头 构建 模型 。Python 社区 开发 了 一 些 第 三 方 库 来 简化 这 些 底层 架构 的 使 用 。Lasagne 
(Theano ) 和 Skflow (TensorFlow ) 很 受 欢 迎 ,我 们 选择 使 用 Keras， 它 在 API 的 友好 性 和 功能 性 
方面 比较 均衡 。Keras 可 以 使 用 TensorFlow 或 Theano 作为 后 端 ， 这 两 者 各 有 利 浆 ， 我 们 将 使 用 
TensorFlow 后 端 来 做 演示 ， 另 外 我 们 还 需要 h5py 包 来 保存 已 训练 模型 的 内 部 状态 。 

Keras 默认 以 TensorFlow 作为 后 端 ， 运 行 时 第 一 行 输 出 就 会 提醒 大 家 目前 使 用 的 是 哪个 后 端 。 大 
家 可 以 通过 在 环境 变量 或 脚本 中 修改 配置 文件 来 更 换 后 端 。Keras 的 说 明文 档 非常 清晰 完整 ， 我 们 强 
烈 建议 大 家 在 上 面 多 花 点 儿 时 间 。 不 过 我 们 在 这 里 也 提供 一 个 快速 概述 : Sequential () 是 一 个 神经 
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网 络 的 抽象 类 , 用 于 访问 Keras 的 基本 API, compile 方法 主要 用 于 构建 底层 权重 及 它们 之 间 的 
相互 关系 ,而 £it 方法 计算 训练 过 程 中 产生 的 误差 并 实施 最 重要 的 应 用 反 向 传播 过 程 。epochs、 
batch size 和 optimizer 是 需要 调 优 的 超 参 数 ， 从 某 种 意义 上 来 说 ， 调 参 也 是 一 门 艺术 。 

遗憾 的 是 ,对 于 神经 网 络 的 设计 和 调 优 , 没有 一 个 放 之 四 海 而 皆 准 的 方法 。 对 于 特定 的 应 用 
应 选择 哪 种 适合 的 框架 , 需要 大 家 根据 自己 的 经 验 和 直觉 来 判断 。 不 过 如 果 能 找到 和 当前 的 应 用 
相似 的 实现 案例 , 那么 完全 可 以 使 用 这 个 框架 并 对 实现 进行 调整 来 满足 大 家 的 需求 。 神 经 网 络 框 
架 或 者 所 有 这 些 花 哨 的 东西 并 没有 什么 可 怕 的 ,现在 我 们 把 话题 转 回 到 基于 图 像 处 理 的 自然 语言 
处 理 。 为 什么 还 有 图 像 ? 稍微 耐心 学 习 一 下 就 会 明白 了 。 






































1.3 ” 卷 积 神经 网 络 


卷 积 神经 网 络 ( convolutional neural net，CNN ) 得 名 于 在 数据 样本 上 用 滑动 窗口 (或 卷 积 ) 
的 概念 。 

卷 积 在 数学 中 应 用 很 广泛 ， 通 常 与 时 间 序 列 数 据 相 关 。 在 本 章 中 ， 可 以 不 用 关注 其 中 的 高 阶 
概念 ， 只 需要 知道 它 是 用 一 个 可 视 化 盒子 在 一 个 区 域内 滑动 (如 图 7-2 所 示 )。 大 家 将 从 图 像 上 的 
滑动 窗口 概念 入 手 , 然后 扩展 到 文本 上 的 滑动 窗口 。 总 体 来 说 ， 就 是 在 较 大 的 数据 块 上 设置 一 个 
滑动 窗口 ， 每 次 滑动 时 只 能 看 到 窗口 范围 内 的 数据 。 
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图 7-2 卷 积 窗口 函数 
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7.3.1 构建 块 


卷 积 神经 网 络 最 早出 现在 图 像 处 理 和 图 像 识 别 领域 , 它 能 够 捕捉 每 个 样本 中 数据 点 之 间 的 空 
间 关 系 ， 也 就 能 识别 出 图 像 中 的 是 猫 还 是 狗 在 驾驶 推土机 。 

卷 积 网 络 (convolutional net )， 也 称 为 convnet ( 这 个 多 出 来 的 n 很 难 发 音 )， 
不 像 传统 的 前 馈 网 络 那样 对 每 个 元 素 ( 图 像 中 的 每 个 像素 ) 分 配 权重 , 而 是 
定义 了 一 组 在 图 像 上 移动 的 过 滤器 (filter， 也 称 为 卷 积 核 、 滤 波 器 或 者 特征 下 
检测 器 )。 这 就 是 卷 积 ! (= 








| 








在 图 像 识别 中 ,每 个 数据 点 的 元 素 可 以 是 黑白 图 像 中 的 每 个 像素 点 , 取 攻 ， ~ 
值 是 1 (on ) 或 0 (off)。 和 ee 

也 可 以 是 灰 度 图 像 中 每 个 像素 的 强度 ( 如 图 7-3 和 图 7-4 所 示 ), 或 者 图 ”3 电线 村 图 像 
彩色 图 像 中 每 个 像素 的 每 个 颜色 通道 的 强度 。 


























图 7-4 ”电线 杆 图 像 的 像素 值 











卷 积 核 会 在 输入 样本 中 【在 这 个 例子 中 ， 就 是 图 像 的 像素 值 ) 进行 卷 积 或 滑动 。 我 们 先 暂 
停 一 下 ， 讲 讲 滑动 是 什么 意思 。 在 窗口 “移动 ”的 时 候 我 们 不 会 做 任何 事情 ， 大 家 可 以 把 它 看 
作 是 一 系列 的 快照 ， 数 据 通 过 这 个 窗口 的 时 候 ， 会 做 一 些 处 理 , 窗口 向 下 滑动 一 点 ， 就 再 做 一 
次 处 理 。 


提示 “” 正 是 这 个 滑动 /快照 使 卷 积 神经 网 络 具 有 高 度 的 并 行 性 。 对 给 定数 据 样本 的 每 个 快照 都 可 以 独 

立 于 其 他 数据 样本 进行 计算 ， 后 面 的 快照 也 不 需要 等 待 上 一 个 快照 。 

我 们 谈论 的 这 些 卷 积 核 有 多 大 呢 ” 卷 积 核 窗口 大 小 的 参数 由 模型 构建 器 选择 , 并 且 高 度 依赖 
数据 内 容 。 不 过 其 中 还 是 有 一 些 共 性 的 。 在 图 像 数 据 中 ， 大 家 通常 会 看 到 窗口 大 小 为 3 x 3(3, 3) 
像素 。 在 本 章 后 面 回 到 NLP 上 时 我 们 会 更 详细 地 讲解 窗口 大 小 的 选择 。 
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7.3.2 步 长 


注意 , 在 滑动 阶段 , 移动 的 距离 是 一 个 参数 ,一 般 不 会 超过 卷 积 核 宽度 ， 每 个 快照 通常 都 与 
相 邻 快照 有 重 县 的 部 分 。 

每 个 卷 积 “ 走 ”的 距离 称 为 步 长 ， 通 常设 置 为 1。 只 移动 一 个 像素 ( 或 其 他 小 于 卷 积 核 宽 度 
的 距离 ) 将 使 进入 卷 积 核 的 不 同 输入 在 一 个 位 置 和 下 一 个 位 置 之 间 出 现 重 至 。 如 果 由 于 步 长 太 大 
而 使 卷 积 核 之 间 没 有 重 羡 ， 就 会 失去 像素 (在 NLP 中 是 词 条 ) 与 相 邻 像素 之 间 的 “模糊 ”效果 。 

这 种 重合 有 一 些 有 趣 的 特性 ， 特 别 是 在 查看 卷 积 核 如 何 随 时 间 变 化 的 时 候 ， 这 些 特 性 非常 
明显 。 



































7.3.3” 卷 积 核 的 组 成 


到 目前 为 止 , 我 们 已 经 描述 了 数据 上 的 滑动 窗口 ， 以 及 通过 这 个 窗口 来 观察 数据 , 但 还 没有 
介绍 如 何 处 理 观察 到 的 数据 。 

卷 积 核 由 两 部 分 组 成 : 

加 一 组 权重 ( 就 像 第 5 章 中 给 神经 元 分 配 的 权重 ); 

加 一 个 激活 函数 。 

如 前 所 述 ， 卷 积 核 通常 是 3 x 3 ( 也 有 其 他 大 小 和 形状 )。 

提示 卷 积 核 神经 元 与 普通 的 隐藏 层 神经 元 十 分 相似 ,但 是 在 扫描 输入 样本 的 整个 过 程 中 ,每 个 卷 

积 核 的 权重 是 固定 的 ， 在 整个 图 像 中 所 有 卷 积 核 的 权重 都 一 样 。 卷 积 神经 网 络 中 的 每 个 卷 积 核 都 是 

独一无二 的 ， 但 是 在 图 像 快照 中 每 个 卷 积 核 的 元 素 都 是 固定 的 。 


当 卷 积 核 在 图 像 上 滑动 时 ， 每 次 前 进 一 个 步 长 ， 得 到 当前 覆盖 像素 的 快照 ,然后 将 这 些 像 素 
的 值 与 卷 积 核 中 对 应 位 置 的 权重 相 乘 。 

假设 大 家 用 的 是 3 x 3 卷 积 核 ， 从 左上 角 开 始 ,， 第 一 个 像素 (0, 0) 乘 以 卷 积 核 第 一 个 位 置 (0, 0) 
上 的 权重 ， 第 二 个 像素 (0, 1) 乘 以 位 置 (0, 1) 上 的 权重 ， 以 此 类 推 。 

然后 对 像素 和 权重 ( 对 应 位 置 ) 的 乘积 求 和 ， 并 传递 到 激活 函数 中 ( 如 图 7-5 所 示 )， 通 常 
选择 ReLU 函数 (线性 修正 单元 ) 一 一 我 们 待 会 再 讨论 这 个 问题 。 

在 图 7-5 和 图 7-6 中 ,x 是 位 置 i 上 的 像素 值 ，z 是 ReLU 激活 函数 的 输出 z_ 0 = max (sum (x * 
w) ,0) 或 z0= max(xi; x w))), 0)。 该 激活 函数 的 输出 将 被 记录 在 输出 图 像 中 的 一 个 位 置 上 。 卷 积 核 
滑动 一 个 步 长 ， 处 理 下 一 个 快照 ， 并 将 输出 值 放 在 上 一 个 输出 值 的 旁边 (如 图 7-6 所 示 )。 

在 一 个 层 中 有 多 个 这 样 的 卷 积 核 , 当 它 们 在 整个 图 像 上 进行 卷 积 时 ,会 各 自 创 建 一 个 新 的 “图 
像 ” 一 一 一 个 被 “过 滤 ” 后 的 图 像 。 假设 有 个 卷 积 核 ， 在 经 过 这 个 处 理 之 后 ,将 得 到 nn 个 经 过 
过 滤 的 新 图 像 。 

我 们 一 会 儿 再 来 看 看 对 这 个 新 图 像 的 处 理 。 
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输出 层 






卷 积 核 
成 对 相 科 





输入 数据 (图像) 
图 7-5 ” 卷 积 神经 网 络 步骤 








卷 积 核 











输入 数据 图像 

















图 7-6 卷 积 
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7.3.4 填充 


然而 ， 在 图 像 的 边缘 会 发 生 一 些 有 趣 的 事情 。 如 果 大 家 从 输入 图 像 的 左上 角 开 始 一 个 3 x 3 
的 卷 积 核 ， 每 次 移动 一 个 像素 ， 当 卷 积 核 的 最 右 侧 边缘 到 达 输 入 图 像 的 最 右 侧 边缘 时 停止 , 那么 
输出 的 “图 像 ”将 比 原 图 像 窄 两 个 像素 。 

Keras 提供 了 处 理 这 个 问题 的 工具 。 第 一 个 策略 是 忽略 输出 维度 变 小 的 问题 。 在 Keras 中 ， 
可 以 设置 参数 padding = 'valid'。 使 用 这 种 方法 时 ,需要 注意 下 一 层 输 入 的 维度 。 这 种 策 
略 的 缺点 是 重 和 至 位 置 上 的 内 部 数据 点 被 多 次 传递 到 每 个 卷 积 核 上 , 原始 输入 的 边缘 数据 将 被 欠 采 
样 。 在 比较 大 的 图 像 上 ， 这 可 能 不 是 问题 ， 但 是 如 果 把 这 个 概念 应 用 到 Twitter 数据 上 ， 例 如 ， 
在 一 个 10 个 单词 的 数据 集 上 进行 从 采样 ， 则 可 能 会 极 大 地 改变 输出 结果 。 

另 一 个 策略 称 为 填充 《padding )， 即 向 输入 数据 的 外 部 边缘 添加 足够 多 的 数据 ， 使 边缘 上 的 
第 一 个 数据 点 可 以 被 视 为 内 部 数据 点 进行 处 理 。 这 种 策略 的 缺点 是 向 输入 数据 中 添加 了 可 能 不 相 
关 的 内 容 ， 导致 偏离 了 输出 结果 。 大 家 不 需要 专门 去 寻找 生成 虚假 数据 的 模式 , 可 以 用 几 种 不 同 
的 方法 进行 填充 以 尽量 减少 不 良 影响 。 具 体 做 法 参见 代码 清单 7-1。 
































代码 清单 7-1 Keras 中 一 个 卷 积 层 的 神经 网 络 





>>> from keras.models import Sequential 
>>> from keras.layers import Conv1D 


>>> model.add (Conv1lD (filters=16, 
kernel size=3， 


>>> model = Sequential () 'same' 和 'valid' 都 是 可 选项 
padding="'same', | input_shape 仍然 是 输入 数据 
activation='relu', 修改 前 的 形状 ， 填 充 会 在 后 




















strides=1, 台 进 行 
input_ shape=(100, 300))) 











稍 后 将 详细 介绍 实现 细节 。 需要 对 这 些 数 据 位 多 加 注意 , 大 家 使 用 的 工具 中 已 经 对 这 些 问题 
进行 了 很 好 的 处 理 。 

还 有 一 些 策略 ， 例 如 在 预 处 理 过 程 中 通过 模拟 已 存在 的 边缘 数据 点 来 预测 要 填充 位 置 上 的 
值 。 不 过 这 种 策略 危险 性 较 大 ，NLP 应 用 中 一 般 不 会 使 用 。 
卷 积 流水 线 

现在 有 个 卷 积 核 和 个 新 图 像 , 接 下 来 怎么 处 理 呢 ?和 大 多 数 神经 网 络 应 用 一 样 , 我 们 从 
一 个 已 标注 的 数据 集 开 始 , 任务 目标 也 类 似 : 预测 一 个 给 定 新 图 像 的 标签 。 最 简单 的 方法 是 将 每 
个 过 滤 后 的 图 像 串 起 来 并 输入 到 前 馈 层 ， 然 后 像 第 5 章 那 样 来 处 理 。 

提示 大 家 可 以 将 这 些 经 过 过 滤 的 图 像 传递 到 第 二 个 卷 积 层 ， 它 也 有 一 组 卷 积 核 。 在 实践 中 ,这 是 

最 常见 的 架构 ， 稍 后 我 们 会 再 详细 介绍 。 多 层 卷 积 网 络 对 抽象 层 的 学 习 路 径 一 般 是 : 首先 是 边缘 ， 

然后 是 形状 /颜色 ， 最 后 是 含义 。 

不 管 大 家 在 网 络 中 添加 了 多 少 层 〈 卷 积 层 或 其 他 层 )， 一旦 得 到 一 个 最 终 输出 ， 就 可 以 计算 
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出 误差 并 通过 网 络 进行 反 向 传播 该 误差 。 

因为 激活 函数 是 可 微 的 , 所 以 可 以 像 之 前 一 样 反 向 传播 并 更 新 各 个 卷 积 核 的 权重 。 然 后 网 络 
会 学 习 到 需要 什么 样 的 卷 积 核 才能 为 给 定 的 输入 获得 正确 的 输出 。 

大 家 可 以 将 此 过 程 视 为 神经 网 络 在 学 习 检测 和 提取 信息 , 以 便 让 后 面 的 层 能 更 容易 地 进行 处 理 。 














7.3.5 学 习 


就 像 所 有 神经 网 络 一 样 ， 卷 积 核 本 身 会 以 初始 化 为 接近 零 的 随机 值 的 权重 开始 。 那么 输出 的 
“图 像 ” 怎 样 才 不 会 是 噪声 呢 ? 在 最 初 的 几 轮 和 途 代 训练 中 ， 它 确实 只 是 噪声 。 

但 是 大 家 构建 的 分 类 器 会 根据 各 个 输入 数据 ， 从 期 望 标签 中 获得 一 定 的 误差 值 ， 并 通过 激活 函 
数 将 输入 数据 反 向 传播 给 卷 积 核 。 对 于 误差 值 的 反 向 传播 ， 我 们 还 需要 计算 误差 对 输入 权重 的 导数 。 

当 卷 积 层 刚 出 现时 ， 它 用 的 是 上 层 梯度 对 输入 权重 的 导数 。 这 个 计算 和 正常 的 反 向 传播 类 似 ， 
对 于 给 定 训练 样本 ， 卷 积 核 权 重 会 在 多 个 位 置 上 输出 对 应 的 结果 。 

梯度 对 卷 积 核 权重 的 导数 的 具体 计算 超出 了 本 书 的 范围 , 不 过 可 以 简单 介绍 一 下 , 对 于 一 个 
给 定 卷 积 核 的 权重 , 梯度 是 前 向 传播 过 程 中 卷 积 的 每 个 位 置 上 梯度 的 和 。 这 是 一 个 相当 复杂 的 公 
式 ， 两 个 求 和 及 多 个 释 加 式 如 下 : 






























































公式 7-1 卷 积 核 权 值 的 梯度 之 和 


这 一 概念 与 常规 的 前 馈 网 络 基本 相同 , 即 计 算出 每 个 特定 权重 对 系统 总 体 误差 的 贡献 , 然后 
再 来 决定 如 何 更 好 地 调整 权重 , 使 其 能 够 在 后 面 的 训练 样本 上 尽量 减 小 误差 。 这 些 细节 对 于 理解 
卷 积 神经 网 络 在 自然 语言 处 理 中 的 应 用 并 不 是 特别 重要 , 但 还 是 希望 大 家 对 如 何 调整 神经 网 络 结 
构 有 直观 的 认识 ， 在 本 章 后 面 的 内 容 中 会 构建 这 些 示例 。 


74 狭窄 的 窗口 


好 吧 , 之 前 我 们 一 直 在 讨论 图 像 。 但 是 我 们 的 目标 是 语言 ， 还 记得 吗 ” 现在 我 们 看 看 一 些 需 
要 训练 的 词 。 大 家 可 以 用 在 第 6 章 中 已 经 学 过 的 词 向 量 (也 称 为 词 谋 入 ) 而 不 是 图 像 的 像素 值 作 
为 网 络 的 输入 ， 将 卷 积 神经 网 络 应 用 到 自然 语言 处 理 上 。 

由 于 词 之 间 的 相对 垂直 关系 可 以 是 任意 的 ， 只 取决 于 页 面 宽度 ， 因 此 关联 信息 主要 体现 在 
“水 平 ”方向 上 。 


提示 “同样 的 概念 也 适用 于 先 从 上 到 下 然后 从 右 到 左 阅读 的 语言 ， 如 日 语 (不 少 日 语文 学 书籍 中 采 
用 从 上 到 下 的 排版 顺序 ) 对 于 这 些 语言 ， 大 家 要 处 理 的 是 “垂直 ”关系 而 不 是 “水 平 ” 关 系 。 


对 于 图 像 这 种 二 维 输入 使 用 的 是 二 维 卷 积 ,而 对 于 句子 这 种 一 维 输入 , 大 家 主要 关注 的 是 词 
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人 ， 1 x 3 卷 积 核 

条 在 一 维 空 间 维 度 的 关系 2 所 以 做 的 是 一 维 卷 由。 The cat and dog went to the bodega together. 
这 里 的 卷 积 核 也 可 以 是 一 维 的 , 例如 , 图 7-7 所 示 的 例子 中 1x 3 着 积 核 

使 用 lx3 的 滑 动 窗 口 The cat and dog|went to the bodega together. 











1 x 3 卷 积 核 


如 果 将 文本 想象 为 图 像 ， 则 “第 二 个 ”维度 是 词 向 量 的 金 。 mealebadeuaiauellet 
长 ， 一 般 是 100 维 到 500 维 ， 就 像 一 个 真实 的 图 像 。 大 家 只 需 i 
要 关心 卷 积 核 的 “宽度 "。 在 图 7-7 中 ， 卷 积 核 的 宽度 是 3 个 词 
条 。 请 注意 ， 每 个 单词 的 词 条 ( 或 之 后 的 字符 词 条 ) 在 句子 “图 像 ”中 都 相当 于 一 个 “像素 ”。 


提示 “一 维 卷 积 核 这 个 词 可 能 会 误导 大 家 。 如 图 7-8 所 示 ， 词 本 身 的 向 量 表示 是 以 “向 下 ”扩展 的 
方式 来 表示 ， 卷 积 核 在 移动 过 程 中 会 覆盖 到 词 向 量 这 个 维度 的 整个 长 度 。 当 我 们 说 一 维 卷 积 的 维 数 
时 ， 指 的 是 短语 的 “宽度 "。 在 二 维 卷 积 中 ， 如 图 像 ， 将 从 左 到 右 从 上 到 下 地 滑动 来 扫描 输入 图 像 ， 
因此 称 之 为 二 维 。 在 这 里 ， 我 们 只 是 在 从 左 到 右 这 一 个 维度 上 滑动 。 


The cat and dog went to the bodega together 


SN 













































0.03| | 0.92 0.11 | | 0.15S 








032 0.33 | | 0.23 


0.62 0.00| | 0.02 


输入 〈 词 嵌入 ) 





099 0.00| | 0.66 





0.02 0.11 | | 0.00 





0.32 | |0.23 | | 0.55 0.22 | | 0.42| | 0.00 



































卷 积 核 














聚合 及 激活 函数 


z[0] = activation function(sum(w * x[:, i:i+3])} 





输出 层 (对 于 给 定 的 卷 积 核 ) 20 21 22 





























图 7-8 ”一 维和 能 入 卷 积 
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如 前 所 述 , 卷 积 这 个 术语 实际 上 是 一 种 简写 。 如 何 滑 动 窗口 对 模型 本 身 没 有 影响 。 各 个 位 置 
的 数据 决定 了 运算 结果 。 计 算 “ 快 照 ”的 顺序 并 不 重要 ， 只 需要 保证 按照 与 窗口 在 输入 上 的 位 置 
相同 的 方式 来 重 构 输 出 即 可 。 

在 前 向 传播 过 程 中 ， 对 于 给 定 的 输入 样本 ， 卷 积 核 中 的 权重 值 不 变 ， 这 意味 着 对 于 一 个 给 定 卷 
积 核 , 可 以 并 行 地 处 理 其 所 有 “快照 ”并 同时 合成 输出 “图 像 ”。 这 就 是 卷 积 神经 网 络 速度 快 的 秘诀 。 

卷 积 神经 网 络 的 处 理 速度 , 加 上 忽略 特征 位 置 的 能 力 , 是 研究 人 员 一 直 使 用 卷 积 方法 来 提取 
特征 的 原因 。 

















7.4.1 Keras 实现 : 准备 数据 


我 们 通过 Keras 文档 提供 的 卷 积 神经 网 络 分 类 器 示例 来 看 一 下 Python 中 的 卷 积 。 它 设计 了 一 
个 一 维 卷 积 网 络 来 分 类 IMDB 电影 评论 数据 集 。 

每 个 数据 点 都 预先 标记 为 0( 消极 情感 ) 或 1 ( 积极 情感 ) 在 代码 清单 7-2 中 ,我 们 将 把 示 
例 IMDB 电影 评论 数据 集 蔡 换 为 原始 文本 的 数据 集 , 这 样 我 们 也 可 以 亲自 预 处 理 文本 。 然后 我 们 
会 看 到 是 否 可 以 使 用 这 个 已 训练 的 网 络 来 分 类 它 从 未 见 过 的 文本 。 

















代码 清单 7-2 导入 Keras 中 的 卷 积 工具 











Keras 处 理 这 一 内 容 的 大 部 分 , 不 过 处 理 填充 输入 数 S 
它 更 善于 处 理 numpy 数组 据 的 辅助 模块 基础 的 Keras 神经 网 络 模型 
>>> import numpy as np 





>>> from keras.preprocessing import sequence 模型 中 常用 的 层 对 象 
>>> from keras.models import Sequential 
>>> from keras.layers import Dense, Dropout, Activation 
>>> from keras.layers import ConvlD, GlobalMaxPoolinglD en 
1 卷 积 层 和 池 化 














首先 从 斯 坦 福 大 学 人 工 智能 系 下 载 原 始 数据 集 "。 这 是 为 2011 年 的 论文 “Learning Word 
Vectors for Sentiment Analysis”( 学 习 词 向 量 情感 分 析 ) 准备 的 数据 集 。 下 载 完成 后 ， 将 其 解压 出 
来 并 看 看 里 面 的 内 容 。 大 家 只 需要 用 训练 目录 train/ 就 可 以 了 ， 不 过 里 面 也 有 其 他 一 些 “toy” 数 
据 ， 可 以 随意 查看 。 

训练 目录 中 的 评论 数据 被 分 成 文件 夹 pos 和 neg 中 的 两 类 文本 文件 ,需要 在 Python 中 以 适当 
的 标签 先 读 取 出 来 然后 打 乱 顺序 , 使 样本 不 会 全 部 是 正 例 或 负 例 。 如 果 用 以 标签 排序 的 数据 进行 
训练 ,会 使 训练 结果 偏向 于 后 面 出 现 的 内 容 ， 尤其 是 在 使 用 某 些 超 参数 ( 如 momentum ) 的 情况 
下 更 是 如 此 。 具 体 做 法 参见 代码 清单 7-3。 


代码 清单 7-3 ”文档 加 载 预 处 理 


>>> import glob 
>>> import os 























JD 读者 可 在 本 书 下 载 资源 中 查看 。 一 一 译 者 注 
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>>> from random import shuffle 


>>> def pre process data (filepath): 


wan 


This is dependent on your training data source but we will 
try to generalize it as best as possible. 


mm 


Positive path = os.path.join(filepath, "pos') 
negative path = os.path.join(filepath, 'neg') 
pos_label = 1 

neg_label = 0 

dataset = [] 


for filename in glob.globl(os.path.join(positive path, '*.txt"')): 
with open(filename, 'r') as f: 
dataset.append( (pos label, f.read())) 


for filename in glob.glob (os.path.join (negative path, '*.txt')): 
with open(filename, 'r') as f: 
dataset.append( (neg label, f.read())) 


shuffle (dataset) 


return dataset 


第 一 个 示例 文档 如 下 所 示 。 由 于 样本 经 过 重新 排序 处 理 , 大 家 看 到 的 文档 内 容 可 能 会 有 所 不 
同 , 不 过 这 个 没有 影响 。 元 组 的 第 一 个 元 素 是 情感 的 目标 值 : 1 表示 积极 情感 ，0 表示 消极 情感 : 

>>> dataset = pre process datal('<path to your downloaded file>/aclimdb/train') 

>>> dataset [0] 

(1, 'I, as a teenager really enjoyed this movie! Mary Kate and Ashley worked 

= great together and everyone seemed so at ease. I thought the movie plot was 


= very good and hope everyone else enjoys it to! Be sure and rent it!! Also 
they had some great soccer scenes for all those soccer players! :)') 


下 一 步 是 数据 的 分 词 和 向 量化 。 我 们 将 使 用 基于 谷歌 新 闻 的 预 训练 Word2vec 词 向 量 ， 因 此 
可 以 先 通过 nlpia 包 或 直接 从 谷歌 下 载 这 些 数据 。 

然后 像 第 6 章 中 所 述 ， 使 用 gensim 来 拆 解 这 些 向 量 。 在 load word2vec format 方法 中 
可 以 设置 1imit 参数 ; 1imit 设置 较 大 时 可 以 加 载 更 多 的 向 量 ， 不 过 内 存 会 成 为 一 个 问题 ， 其 
投入 产 出 比 在 1imit 值 设置 很 大 时 会 迅速 下 降 。 

我 们 编写 一 个 辅助 函数 来 对 数据 进行 分 词 ， 并 创建 一 个 用 于 传递 给 模型 的 输入 词 条 向 量 列 
表 ， 如 代码 清单 7-4 所 示 。 


代码 清单 7-4 向 量化 及 分 词 器 


>>> from nltk.tokenize import TreebankWordTokenizer 
>>> from gensim.models.keyedvectors import KeyedVectors 




















Q@ 详 见 标题 为 “GoogleNews-vectors-negative300.bin.gz - Google Drive” 的 下 载 页 面 。 
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>>> from nlpia.loaders import get data < 
>>> word vectors = get data('w2v', limit=200000) 





>>> def tokenize and vectorize (dataset): get_data(w2v') 将 下 载 “GoogleNews- 


vectorsnegative300.bin.gz” 到 | nlpia.loaders. 
BIGDATA PATH 目录 下 


tokenizer = TreebankWordTokenizer () 
vectorized data = [] 
expected = [] 
for sample in dataset: 
tokens = tokenizer.tokenize (sample[1] 
sample vecs = [] 
for token in tokens: 
Cry 
sample vecs.append (word vectors[token]) 


exCcept KeybError: 
pass # No matching token in the Google w2v vocab 


vectorized data.append (sample vecs) 


return vectorized data 


注意 ， 这 个 地 方 有 一 些 信息 损 失 。 谷 歌 新 闻 的 Word2vec 词汇 表 中 只 包含 了 一 部 分 停 用 词 ， 
使 很 多 像 “a” 这 样 的 常用 词 将 在 函数 处 理 过 程 中 被 丢弃 ， 这 个 处 理 不 是 特别 理想 ， 不 过 大 家 可 
以 通过 这 个 方法 得 到 一 个 信息 有 损失 情况 下 的 卷 积 神经 网 络 的 基线 性 能 。 如 果 想 要 避免 信息 损 
失 ， 大 家 可 以 单独 训练 word2vec 模型 ， 以 确保 有 更 好 的 向 量 获 羔 率 。 男 外 ， 数 据 中 还 有 很 多 类 
似 于 <bn> 的 HTML 标签 ， 它 们 通常 与 文本 的 情感 无 关 ， 必 须 从 数据 中 去 除 。 

大 家 还 需要 收集 目标 值 (0 表示 负面 评价 ，! 表示 正面 评价 ), 将 其 按照 与 训练 样本 相同 的 顺 
序 排 列 ， 如 代码 清单 7-5 所 示 。 


代码 清单 7-5 目标 标签 


>>> def collect expected (dataset): 
""™ Peel off the target values from the dataset "™"" 
expected = [] 


























for sample in dataset: 
expected.append (sample{[0] 
return expected 


然后 将 数据 传人 这 些 函 数 : 


>>> vectorized data = tokenize and vectorize (dataset) 
>>> expected = collect expected (dataset) 


接 下 来 ， 把 准备 好 的 数据 分 成 训练 集 和 测试 集 ， 如 果 直 接 对 导入 的 数据 集 进 行 80/20 划分 ， 
会 忽略 test 文件 夹 中 的 数据 。 实 际 上 ,下 载 的 原始 数据 中 的 训练 目录 和 测试 目录 都 包含 了 有 效 的 
训练 数据 和 测试 数据 ， 可 以 对 数据 进行 随意 组 合 ， 数 据 越 多 越 好 。 大 家 下 载 的 大 多 数 数据 集中 
train/ 和 test/ 目 录 是 由 该 数据 包 的 维护 者 按照 特定 的 训练 集 /测试 集 比例 划分 的 ， 目 的 是 为 了 让 大 
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家 能 准确 地 复 现 这 些 目 录 的 结果 。” 

下 一 段 代码 将 数据 分 别 放 入 训练 集 (x_train ) 和 对 应 的 “正确 ”答案 (y_train )， 以 及 
测试 集 ( x_test ) 和 对 应 的 答案 (y_test ) 中。 大 家 可 以 让 网 络 对 测试 集中 的 样本 进行 “预测 ”， 
验证 它 是 否 能 正确 学 到 一 些 训练 数据 之 外 的 东西 。y_train 、Y_test 分 别 对 应 x_train、 
x _ test 集合 中 每 个 样本 的 “正确 ”答案 ， 如 代码 清单 7-6 所 示 。 





代码 清单 7-6 ”划分 训练 集 /测试 集 





>>> split point = int(len(vectorized data)*.8) 


>>> x train = Vectorized qdqata[:split point ] 
>>> y train = expected[:split _ point] 

>>> X test = vectorized datalsplit point:] 
>>> y_ test = expected[split point:] 


下 一 段 代码 (代码 清单 7-7 ) 设置 了 网 络 的 大 部 分 超 参 数 。maxlen 变量 用 于 设置 评论 的 最 
大 长 度 。 因 为 卷 积 神经 网 络 的 每 个 输入 必须 具有 相同 的 维 数 , 所 以 需要 截断 超出 400 个 词 条 的 样 
本 ,并 填充 少 于 400 个 词 条 的 样本 , 填充 值 可 以 是 Null 或 0; 在 表示 原始 文本 时 , 通常 使 用 “PAD” 
标记 来 表示 填充 位 置 。 这 个 处 理 将 向 系统 引入 新 的 数据 。 不 过 网 络 本 身 也 会 学 习 这 种 模式 ， 使 
PAD ==“ignore me” 成 为 网 络 结构 的 一 部 分 ， 所 以 这 不 是 世界 末日 。 

注意 , 这 个 填充 与 前 面 介绍 的 填充 不 同 。 这 里 的 填充 是 为 了 使 输入 大 小 保持 一 致 。 对 每 个 训 
练 样本 的 开头 和 结尾 填充 都 需要 单独 考虑 , 这 具体 取决 于 是 否 希 望 输出 具有 相同 的 大 小 以 及 结 
位 置 上 的 词 条 是 否 与 中 间 位 置 上 的 词 条 作 相 同 的 处 理 或 者 是 否 对 起 始 /结束 词 条 区 别 对 待 ， 如 代 
码 清单 7-7 所 示 。 


代码 清单 7-7 ”CNN 参数 


在 后 向 传播 误差 和 更 新 权重 





|e 























前 ， 向 网 络 输入 的 样本 数量 传人 卷 积 神经 
网 络 中 词 条 向 
maxlen = 400 量 的 长 度 要 训练 的 卷 积 核 
batch size = 32 的 数量 
embedding dims = 300 < 
filters = 250 4 
ee 卷 积 核 大 小 : 每 个 卷 积 核 将 是 一 个 矩 


hidden dims = 250 所 TI 





在 普通 的 前 馈 网 络 中 阵 : embedding_dims x kernel size, 在 











epochs = 2 传播 链 端 点 的 神经 元 本 例 中 是 250 x 3 
整个 训练 数据 集 在 网 络 中 的 数量 
的 传人 次 数 








提示 “在 代码 清单 7-7 中 ，kernel size ( 卷 积 核 大 小 或 窗口 大 小 ) 是 一 个 标量 值 ， 而 不 是 图 像 
中 二 维 型 卷 积 核 的 向 量 值 。 这 个 卷 积 核 将 一 次 查看 3 个 词 条 的 词 向 量 。 仅 在 第 一 层 中 考虑 卷 积 核 大 














J 在 测试 模型 时 最 好 使 用 从 未 见 过 的 测试 数据 来 公开 测试 性 能 。 不 过 ,在 最 终 部 署 给 用 户 时 ， 尽 量 使 用 所 
有 的 标注 数据 来 进行 模型 的 训练 。 
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小 会 有 一 定 的 帮助 ， 就 像 文本 的 1-gram。 在 本 例 中 , 我 们 关注 的 是 输入 文本 的 3-gram， 当 然 也 可 以 
换 成 5-gram、7-gram 甚至 更 多 元 关系 , 这 主要 取决 于 数据 和 任务 , 所 以 大 家 可 以 在 模型 里 随意 试验 
这 个 参数 。 


Keras 中 提供 了 预 处 理 辅助 方法 pag sequences， 理论 上 可 以 用 于 填充 输入 数据 ， 但 是 ， 
只 对 标量 序列 有 效 ， 而 我 们 这 里 是 向 量 序列 。 所 以 我 们 需要 自己 编写 一 个 辅助 函数 来 填充 输入 
站 所 如 代码 清单 7-8 所 示 。 











代码 清单 7-8 填充 及 截断 词 条 序列 





>>> def pad trunc(data, maxlen): < 


mm 





For a given dataset pad with zero Vectors or truncate to maxlen 


Wt 一 位 聪明 的 LiveBook 读者 ( @madara ) 指出 ， 这 个 函数 可 以 通过 一 行 代码 


new data 人 实现 :[smp[:maxlen] +[[0.] * emb_dim] * (maxlen - len(smp)) for smp in data] 


# Create a vector of 0s the length of our word vectors 
Zero veECtor Ss. I[] 
for _ in range(len(data[0] [0])): 

Zero _ vector.append(0.0) 


for sample in data: 

if len(sample) > maxlen: 
temp = sample[:maxlen] 

elif len(sample) < maxlen: 
temp = sample 
# Append the appropriate number 0 vectors to the list 
additional elems = maxlen - len (sample) 
for _ in range(additional elems): 

temp.append (zero vector) 


else: 最 后 将 扩展 后 的 数据 放 在 
temp = sample 扩展 数据 列表 的 最 后 


new_data.append (temp) 
return new data 


然后 ， 我 们 需要 将 训 练 数 据 和 济 试 数据 都 传递 到 填充 带 / 截 断 器 ， 然 后 将 其 转换 为 numpy 数 
组 ， 以 便 在 Keras 中 使 用 。 这 就 是 该 CNN 网 络 所 需 形 状 的 张 量 ( 大 小 为 样本 数量 x 序列 长 度 x 词 
向 量 长 度 )。 如 代码 清单 7-9 所 示 。 











代码 清单 7-9 收集 经 过 扩展 和 截断 的 数据 





>>> X train = pad trunc (X train, maxlen) 
>>> X test = pad trunc(x test, maxlen) 


>>> x train = np.reshape (x train, (len(x train), maxlen, embedding dims)) 


>>> y train = np.array (y_train) 
>>> x _ test = np.reshape (x test, (len(x test), maxlen, embedding dims)) 
>>> y_test = np.array (y_test) 
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现在 我 们 终于 准备 好 构建 一 个 神经 网 络 了 。 


7.4.2 ” 卷 积 神经 网 络 架 构 


下 面 的 介绍 将 从 基本 的 神经 网 络 模 型 类 sequential 开始 。 与 第 5 章 中 的 前 馈 网 络 一 样 ， 
Sequential 是 Keras 中 神经 网 络 的 基 类 之 一 。 从 这 里 大 家 可 以 开始 添加 具有 魔力 的 网 络 层 。 

我 们 添加 的 第 一 个 部 分 是 卷 积 层 。 在 本 例 中 , 假设 输出 层 的 维度 小 于 输入 层 , 填充 符号 设置 
为 "valid'。 每 个 卷 积 核 从 句 首 的 最 左 侧 边 缘 开 始 ， 到 最 右 侧 边缘 的 最 后 一 个 词 条 停止。 

卷 积 核 每 次 将 移动 一 个 词 条 ( 步 长 )。 如 代码 清单 7-7 所 示 ， 卷 积 核 ( 窗口 宽度 ) 大 小 设 为 
3 个 词 条 ,并 使 用 ' relu' 作 为 激活 函数 。 每 一 步 都 将 卷 积 核 的 权重 与 它 正在 查看 的 3 个 词 条 
( 逐个 元 素 ) 相 乘 ， 然 后 进行 加 和 ， 如 果 结 果 大 于 0， 则 继续 传递 ， 否 则 输出 0， 最 后 的 结果 
( 正 数 或 0 ) 将 传递 给 修正 线性 单元 (rectified linear unit，ReLU ) 激活 函数 ， 如 代码 清单 7-10 
所 示 。 








代码 清单 7-10 ”构建 一 个 一 维 CNN 





六 六 Pritt Build nodel..”) 


人 del = S tial 和 
model ”Seqnent ait) 人 | 这 是 Keras 中 标准 的 模型 定义 方式 。 在 








第 10 章 中 ,大 家 将 学 到 另 一 种 构造 方式 
“函数 式 API” 





>>> modqel.add(Conv1D ( 
filters, 
kernel size, 


adding='valid', : 上 De 了 $y 
a 添加 一 个 Conv1D 层 ， 它 将 学 习 长 度 为 kernel_size 的 词组 卷 


Te 积 核 。 还 有 许多 关键 词 参数 ， 不 过 现在 只 使 用 默认 值 即 可 


input_shape= (maxlen, embedding dims))) 4 


























7.4.3 池 化 


大 家 已 经 建立 了 一 个 神经 网 络 ， 所 以 …… 都 来 “池子 ”里 吧 ! 池 化 是 卷 积 神经 网 络 中 一 种 降 
维 方法 。 在 某 种 程度 上 , 我 们 正在 通过 并 行 计算 来 加 快 处 理 速度 。 但 是 可 能 大 家 也 注意 到 ， 每 个 
我 们 定义 的 卷 积 核 都 会 创建 一 个 新 “版 本 ”的 数据 样本 ， 即 经 过 卷 积 过 滤 的 数据 样本 。 在 前 面 的 
示例 中 ， 第 一 层 卷 积 网 络 将 产生 250 个 过 滤 后 的 版 本 数据 ( 如 代码 清单 7-7 所 示 )。 池 化 不 但 能 
够 在 一 定 程度 上 缓解 输出 过 多 的 情况 ， 还 有 另 一 个 显著 特性 。 

池 化 的 关键 思想 是 把 每 个 卷 积 核 的 输出 均匀 地 分 成 多 个 子 部 分 , 对 于 每 个 子 部 分 , 挑选 或 计 
算出 一 个 具有 代表 性 的 值 。 然 后 就 可 以 将 原始 输出 放 在 一 边 而 只 使 用 这 些 具有 代表 性 的 值 的 集合 
来 作为 下 一 层 的 输入 。 

等 等 | 丢弃 数据 不 是 很 糟糕 吗 ? 一 般 来 说 ， 丢 弃 数 据 不 会 是 一 个 理想 的 方案 。 但 事实 证 明 ， 
这 是 学 习 源 数据 高 阶 表示 的 一 种 有 效 途 径 。 卷 积 核 通过 这 种 训练 来 发 现 数据 中 的 模式 , 这 些 模式 
存在 于 词 和 相 邻 词 之 间 的 关系 中 ! 就 是 那 种 我 们 开始 寻找 的 微妙 信息 。 
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在 图 像 处 理 中 , 第 一 层 学 到 的 往往 是 边缘 信息 , 位 于 像素 密度 迅速 变化 的 部 分 。 后面 的 层 会 


学 到 形状 和 纹理 等 概念 。 再 之 后 的 层 可 能 会 学 到 “内 容 ” 或 “含义 ”"。 类 似 的 过 程 也 会 发 生 在 文 





本 上 。 








提示 在 图 像 处 理 中 , 池 化 区 域 通常 是 2x 2 的 像素 窗口 (它们 不 像 卷 积 核 那样 相互 重 琶 )， 而 在 一 





维 卷 积 中 它们 是 一 维 窗口 (如 1x2 或 1x3)。 
池 化 有 两 种 方式 (如 图 7-9 所 示 ): 平均 池 化 和 最 大 池 化 。 平均 池 化 是 比较 直观 的 一 








种 方式 ， 


通过 求 子 集 的 平均 值 理论 上 可 以 保留 最 多 的 数据 信息 。 而 最 大 池 化 有 一 个 有 趣 的 特性 , 通过 取 给 
定 区 域 中 的 最 大 激活 值 , 网 络 可 以 看 到 这 个 片段 中 最 突出 的 特征 。 网络 有 一 条 学 习 路 径 来 决定 应 





该 看 什么 ， 而 不 管 确切 的 像素 级 位 置 ! 


二 维 最 大 池 化 (2 x 2 窗口 ) 





0.15 | 0.12| 0.00| 0.23| 





O33 S2 O23 0.33| 0.52 





0.00 | 0.02 | 0.34| 0.33 0.66| 0.66 














0.00 | 0.66| 0.66| 0.56 








一 维 最 大 池 化 《1 x 2 窗口 ) 





加 四 区 区 





一 维 全 局 最 大 池 化 


0.33 | 0.23 | 0.52 | 0.23 | 0.99 | 0.16| 0.00 oo 一 oo 


图 7-9 池 化 层 














除了 降 维和 节省 计算 量 , 我 们 还 得 到 了 一 些 特殊 收获 : 位 置 不 变性 。 如 果 原 始 输入 在 相似 但 





有 区 别 的 输入 样本 中 的 位 置 发 生 轻 微 变 化 , 则 最 大 池 化 层 仍然 会 输出 类 似 的 内 容 。 这 在 
领域 中 是 一 个 非常 有 用 的 特性 ， 在 自然 语言 处 理 中 也 有 类 似 的 作用 。 














图 像 识 别 


在 Keras 的 这 个 简单 示例 中 , 大 家 使 用 的 是 GlobalMaxPooling1D 层 。 不 是 对 每 个 卷 积 核 











输出 的 各 个 子 部 分 取 最 大 值 ， 而 是 对 该 卷 积 核 整 体 输出 取 最 大 值 , 这 将 导致 大 量 的 信息 
是 ， 即 使 损失 了 这 些 信息 ， 大 家 的 这 个 模型 也 不 会 有 问题 : 























>>> model.add (GlobalMaxPoolingl1D()) < 


可 选 的 池 化 方法 有 GlobalMaxPooling1D()、 
MaxPooling1Dm) 或 AvgPooling1D(m)， 其 中 
n 表示 池 化 区 域 大 小 ， 黑 认 值 为 2 
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好 了 ， 拿 上 毛巾 ， 离 开 池 子 。 我 们 回顾 一 下 : 

四 “对 于 每 个 输入 样本 ， 应 用 一 个 卷 积 核 (权重 和 激活 函数 ); 

四 卷 积 输出 的 一 维 向 量 的 维度 略 小 于 原始 输入 ( 输入 数据 维度 为 400 )， 卷 积 核 开 始 于 输入 

数据 的 左 对 齐 位 置 ， 结 束 于 右 对 齐 位 置 ， 输 出 维度 为 1 x 398; 

四 “对 于 每 个 卷 积 核 的 输出 〈 记 住 ， 有 250 个 卷 积 核 )， 取 每 个 一 维 向 量 的 最 大 值 ; 

加 对 于 每 个 输入 样本 得 到 一 个 1 x 250 向 量 (250 是 卷 积 核 的 数量 )。 

对 于 每 个 输入 样本 ,都 有 一 个 一 维 向 量 , 网 络 认为 这 个 向 量 很 好 地 表示 了 输入 样本 。 这 就 是 
输入 数据 的 语义 表示 一 一 当然 还 比较 粗糙 , 并 且 , 这 只 是 在 以 情感 为 训练 目标 的 上 下 文中 的 语义 
表示 。 所 以 ， 它 并 不 能 对 电影 评论 的 内 容 进行 编码 ， 只 能 对 情感 编码 。 

大 家 还 没有 进行 任何 训练 , 所 以 这 还 只 是 一 堆 数 字 。 我 们 稍 后 再 来 讨论 这 个 事情 。 这 里 是 一 
个 很 重要 的 节点 , 一旦 对 网 络 进行 训练 ,这 个 语义 表示 就 会 变 得 非常 有 用 ( 我们 喜欢 把 它 理解 成 
一 个 “思想 向 量 ”)。 就 像 将 词 甬 人 回 量 之 后 一 样 ， 大 家 也 可 以 对 这 些 语 义 表 示 进 行 数 学 运算 : 我 
们 现在 拥有 了 可 以 表示 整个 词组 的 向 量 。 

兴奋 之 余 ， 我 们 回 到 艰难 的 训练 工作 。 大 家 有 一 个 工作 的 目标 ， 那 就 是 情感 标签 。 将 当前 
的 向 量 传人 一 个 标准 的 前 馈 网 络 ， 在 Keras 中 就 是 Dense 层 。 当 前 语义 向 量 中 的 元 素数 量 与 
Dense 层 中 的 节点 数量 相同 ， 但 这 只 是 一 个 巧合 。Dense 层 中 250 个 神经 元 ( hidden qims )， 
每 个 神经 元 都 有 250 个 权重 与 池 化 层 传递 过 来 的 输入 相对 应 。 大 家 可 以 使 用 dropout 层 来 进行 
调整 ， 以 防止 过 拟 合 。 
















































































































































































7.4.4 dropout 


dropout (Keras 中 表示 为 一 个 层 ， 如 代码 清单 7-11 所 示 ) 是 一 种 特殊 的 技术 ,用 于 防止 神经 
网 络 中 的 过 拟 合 。 它 并 不 是 自然 语言 处 理 中 特有 的 ， 但 用 在 这 里 效果 很 好 。 

其 理念 是 ， 在 训练 过 程 中 ， 如 果 按 照 一 定 比 例 随 机 “ 关 掉 ” 部 分 进入 下 一 层 的 输入 数据 ， 这 
样 模型 就 不 会 学 到 训练 集 的 特点 ， 导 致 “ 过 拟 合 "， 而 是 会 学 到 更 多 数据 中 的 略 有 差别 的 表示 模 
式 ， 从 而 在 看 到 全 新 的 数据 时 ， 能 够 对 数据 进行 概括 并 做 出 更 精确 的 预测 。 

模型 通过 假设 在 某 特定 输入 时 ， 进 入 Dropout 层 的 输出 (来自 上 一 层 的 输出 ) 为 零 来 实现 
dropout。 这 样 接收 到 dropout 输入 数据 的 每 个 神经 元 的 权重 对 整体 误差 的 贡献 实际 上 也 是 零 。 因 
此 , 在 反 向 传播 过 程 中 这 些 权重 不 会 更 新 。 然 后 网 络 将 被 迫 依赖 不 同 权重 集 之 间 的 关系 来 实现 优 
化 目标 (希望 它们 不 会 因为 这 种 严厉 的 爱 来 反抗 我 们 )。 

提示 “不 要 过 于 担心 这 一 点 ， 但 是 注意 Keras 在 Dropout 层 下 面 会 做 一 些 神奇 的 操作 。 在 每 次 向 前 

传递 训练 数据 时 ，Keras 会 随机 关闭 一 定 比 例 的 输入 数据 ， 而 在 对 实际 应 用 的 推理 或 预测 时 ， 则 不 

会 做 dropout， 所 以 在 非 训练 的 推理 阶段 ，Dropout 层 后 面 的 层 接收 到 的 信号 强度 会 显著 增强 。 

为 了 缓解 这 个 问题 ，Keras 在 训练 阶段 会 按 比 例 增强 所 有 的 未 关闭 输入 ,使 进入 下 一 层 的 聚合 信号 

与 推理 阶段 时 的 强度 相同 。 






























































异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 





7.4 狭窄 的 窗口 209 


在 Keras 中 Dropout 层 接收 的 参数 是 输入 数据 随机 关闭 的 比例 。 在 这 个 例子 中 ， 仅 为 每 个 训 
练 样本 随机 选择 80% 的 舰 入 数据 按 原样 传递 到 下 一 层 ， 其 余 的 会 设置 为 0。 一般 将 dropout 参数 
设置 为 20%， 不 过 50% 的 比例 也 可 以 有 很 好 的 结果 ( 你 还 可 以 使 用 其 他 超 参数 )。 

然后 在 每 个 神经 元 的 输出 端 使 用 修正 线性 单元 作为 激活 函数 (relu )， 如 代码 清单 7-11 所 示 。 





代码 清单 7-11 带 dropout 的 全 连接 层 
>>> model.add (Dense (hidden dims)) | 从 一 个 普通 的 全 连接 





>>> model.add (Dropout (0.2)) 
>>> model.add (Activation('relu')) 


隐藏 层 开 始 ， 然 后 加 入 
dropout 和 ReLU 


7.4.5 输出 层 


最 后 一 层 ， 或 者 输出 层 ， 是 实际 的 分 类 器 ， 这 里 有 一 个 基于 sigmoid 激活 函数 的 神经 元 ， 
它 的 输出 是 0 到 1 之 间 的 值 。 在 验证 阶段 ，Keras 将 小 于 0.5 的 值 分 为 0 类 ,大 于 0.5 的 值 分 为 1 
类 ， 但 在 计算 损失 时 ， 是 用 目标 值 减 去 由 sigmoid 计算 的 实际 值 来 得 到 的 : (y 一 fx))。 

接 下 来 将 数据 投射 到 只 有 单个 神经 元 的 输出 层 ， 并 将 信号 传人 sigmoid 激活 函数 ， 如 代码 清 
单 7-12 所 示 。 





代码 清单 7-12 漏斗 funnel 





>>> model.add (Dense (1) ) 
>>> model.add (Activation('sigmoid')) 


现在 大 家 终于 有 了 一 个 在 Keras 中 定义 的 卷 积 神经 网 络 模型 。 接 下 来 就 是 编译 和 训练 了 ， 如 
代码 清单 7-13 所 示 。 


代码 清单 7-13 ”编译 CNN 


>>> model.compile (loss='binary crossentropy', 

optimizer='adam', 

a metrics=['accuracy']) 

网 络 的 训练 目标 是 最 小 化 损失 函数 1oss ， 在 这 里 我 们 使 用 'binary_crossentropy'。 在 编 
写本 书 时 ，Keras 中 已 经 定义 了 13 个 损失 函数 ， 并 且 大 家 可 以 定义 自己 的 损失 函数 。 这 里 不 会 对 每 
种 损失 函数 的 示例 都 展开 介绍 , 不 过 binary crossentropy 和 categorical crossentropy 
这 两 者 是 需要 去 了 解 的 。 

两 者 在 数学 定义 上 很 相似 ， 很 多 情况 下 可 以 将 binary crossentropy 看 作 categorical 
crossentropy 的 一 种 特殊 情况 。 重 要 的 是 要 了 解 何 时 该 选择 使 用 哪 一 个 。 由 于 在 这 个 例子 中 
只 有 一 个 输出 神经 元 打开 或 关闭 ， 因 此 选择 使 用 binary_crossentropy。 

categorical 常用 于 多 分 类 预测 ， 在 这 些 情况 下， 目标 输出 将 是 一 个 独 热 编码 的 n 维 向 量 ， 
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个 位 置 代表 个 类 中 的 一 个 类 。 在 这 个 例子 中 ， 网 络 中 的 最 后 一 层 如 代码 清单 7-14 所 示 。 





代码 清单 7-14 ”categorical 变量 的 输出 层 ( 词 ) 


>>> model.add (Dense (num classes)) num classes 在 哪 呢 ……: 
>>> model.add (Activation('sigmoid')) 好 吧 ， 你 懂 的 





在 这 种 情况 下 ， 目 标 值 减 去 输出 值 (y-f(x) ) 将 是 一 个 n 维 向 量 减 去 男 一 个 n 维 疝 量 。 
categorical crossentropy 会 尝试 来 最 小 化 这 个 差 值 。 
还 是 让 我 们 回 到 二 分 类 问题 上 来 。 


1. 优化 


optimizer 参数 用 于 设置 网 络 在 训练 阶段 的 一 系列 优化 策略 ， 包 括 随机 梯度 下 降 、Adam 
和 RSMProp 等 。 这 些 优 化 策略 都 是 神经 网 络 中 针对 最 小 化 损失 函数 的 不 同方 法 ， 其 背后 的 数学 
原理 超出 了 本 书 的 范围 , 不 过 大 家 还 是 要 注意 ,针对 特定 问题 可 以 尝试 不 同 的 优化 方法 。 对 于 某 
个 问题 ， 虽 然 很 多 优化 器 能 收敛 ， 但 有 些 不 会 ， 并 且 它 们 会 以 不 同 的 速率 收敛 。 

它们 的 魔力 来 自 根据 当前 的 训练 状态 动态 地 改变 训练 参数 ， 特 别 是 学 习 率 参数 。 例 如 ， 
学 习 率 可 能 会 随 着 时 间 的 推移 而 衰减 ( 记 住 : wx 是 应 用 于 权重 更 新 的 学 习 率 , 如 第 5 章 中 所 
述 )。 或 者 还 有 一 些 方法 会 使 用 动量 , 根据 权重 最 后 一 次 成 功 减 少 损失 的 移动 方向 来 增加 学 
习 率 。 

每 个 优化 器 本 身 都 有 一 些 超 参数 ， 如 学 习 率 。Keras 对 这 些 超 参数 都 设 有 很 好 的 默认 值 ， 所 
以 一 开始 不 必 过 多 考虑 这 些 超 参数 。 


2. 拟 合 


compile 完成 模型 的 构建 ，fit 完成 模型 的 训练 。 训 练 过 程 中 所 有 的 操作 ， 包 括 输入 与 权 
重 相 乘 、 激 活 函 数 、 反 向 传播 等 都 是 由 这 一 条 语句 启动 的 。 这 个 过 程 耗费 的 时 间 取 决 于 硬件 配置 、 
模型 大 小 及 数据 规模 ， 可 能 需要 几 秒 到 几 个 月 不 等 。 在 大 多 数 情况 下 ， 使 用 GPU 可 以 大 大 减少 
训练 时 间 ， 如 果 大 家 有 GPU 的 话 ， 请 务必 使 用 GPU。 需 要 传 给 Keras 一 些 额 外 的 环境 变量 来 指 
导 它 使 用 GPU。 不 过 这 个 例子 很 小 ， 大 多 数 现代 CPU 都 能 在 合理 的 时 间 内 完成 运行 ， 如 代码 清 
单 7-15 所 示 。 





7 























代码 清单 7-15 训练 CNN 





反 向 传播 更 新 权重 之 前 处 理 的 数据 样本 
数 。 每 个 批 次 中 个 样本 的 累计 误差 会 同 
时 处 理 














>>> model.fit(x train, y train, 
batch size=batch size, 4 


epochs=epochs, 3 
襄 i 个 3 
validation data=(x test, y test)) 停止 前 整个 数据 集 的 训 
练 次 数 
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7.4.6 ”开始 学 习 ( 训练 ) 


在 点 击 运行 前 还 有 最 后 一 步 。 大 家 可 能 希望 在 完成 训练 后 保存 模型 状态 。 因 为 现在 并 不 打算 
把 模型 保存 在 内 存 中 , 大 家 可 以 将 模型 的 结构 保存 在 JSON 文件 中 , 并 将 训练 后 的 权重 保存 在 另 
一 个 文件 中 ， 以 便 之 后 重新 实例 化 ， 如 代码 清单 7-16 所 示 。 


代码 清单 7-16 ”保存 模型 


注意 ， 这 个 地 方 仅 保存 模型 结 
构 ， 并 不 会 保存 模型 权重 























>>> model structure = model.to json() 4 
>>> with open("cnn model.json", "w") as json file: 

json file.write (model structure) 保存 训练 好 的 模型 
>>> model.save weights ("cnn weights.h5") 





这 样 训练 好 的 模型 将 保存 在 磁盘 上 ， 它 已 经 收 全 了 ， 所 以 无 须 再 训练 一 次 。 

Keras 在 训练 阶段 提供 了 一 些 非常 有 用 的 回调 方法 ， 可 以 作为 关键 词 参数 传递 给 fit 方法 ， 
例如 检查 点 checkpointing， 当 精确 率 提 高 或 损失 减少 时 可 以 迭代 地 保存 模型 ， 或 者 早 停 
EarlyStopping， 当 在 一 个 指定 的 评价 方法 上 模型 效果 不 再 改善 时 ， 则 提前 停止 训练 。 而 最 令 
人 兴奋 的 是 ， 它 们 实现 了 TensorBoard 回调 方法 ， 只 有 在 TensorFlow 作为 后 端 时 TensorBoard 才 
能 发 挥 作 用 ， 但 它 提 供 了 强大 的 探查 模型 内 部 结构 的 功能 ， 在 排除 故障 和 调 优 时 是 不 可 或 缺 的 。 
我 们 开始 学 习 吧 ! 运行 上 面 的 compile 和 fit 步骤 将 会 得 到 以 下 输出 : 

Using TensorFlow backend. 

Loading data... 

25000 train sequences 

25000 test sequences 

Pad sequences (samples x time) 

x train shape: (25000, 400) 

x test shape: (25000, 400) 


Build model... 
Train on 20000 samples, validate on 5000 samples 











Epoch 1/2 [================================] - 417s - loss: 0.3756 - 
Ge "0 e8248 = "val losgs U3531 = Val acee2 8390 
Epoch 272 [================================] - 330s - loss: 0.2409 - 


acc: 0.9018 - val loss: 0.2767 - val acc: 0.8840 

由 于 神经 元 的 初始 权重 是 随机 选择 的 , 大 家 得 到 的 最 终 损失 和 精确 率 可 能 会 有 所 不 同 。 可 以 
通过 为 随机 数 生 成 器 设置 种 子 来 克服 这 种 随机 性 , 实现 一 个 可 重复 的 流水 线 。 这 样 做 可 以 使 每 次 
运行 时 的 初始 权重 为 相同 的 随机 值 ， 这 对 模型 调试 和 调 优 很 有 帮助 。 记 住 ， 起 始点 可 能 会 使 模型 
陷入 局 部 极 小 值 ， 甚 至 阻止 模型 收敛 ， 所 以 我 们 建议 大 家 可 以 尝试 一 些 不 同 的 种 子 。 

要 设置 种 子 , 请 在 模型 定义 前 添加 以 下 两 行 代码 。 传 人 seedq 参数 的 数值 并 不 重要 ， 只 要 保 
持 一 致 ， 模 型 就 会 将 权重 初始 化 为 小 值 : 


>>> import numpy as np 
>>> np.randqom.seedq(1337) 











异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 





212 第 7 章 ” 卷 积 神经 网 络 ( CNN ) 





我 们 还 没有 看 到 明显 的 过 拟 合 迹 象 ; 训练 集 和 验证 集 上 的 精确 率 都 有 所 提高 。 大 家 可 以 让 模 
型 再 运行 一 两 个 训练 周期 ， 看 看 是 否 可 以 在 不 过 拟 合 的 情况 下 继续 提高 精确 率 。 只 要 模型 还 在 内 
存 中 ， 或 者 从 保存 文件 中 重新 加 载 进来 ，Keras 就 可 以 从 这 个 保存 点 继续 进行 训练 。 只 要 再 次 调 
用 fit 方法 〈 无 论 是 否 更 改 样本 数据 )， 就 能 从 最 近 一 次 状态 中 恢复 训练 。 


提示 。 当 训练 中 的 损失 持续 减少 ， 而 验证 损失 val loss 在 周期 结束 时 与 前 一 周期 相 比 开始 增加 
时 ， 就 出 现 了 明显 的 过 拟 合 。 找 到 验证 损失 曲线 开始 向 上 弯曲 的 中 间 值 是 获得 一 个 好 模型 的 关键 。 


很 棒 ! 完成 了 ! 现在 ， 大 家 想 想 刚 才 做 了 什么 ? 

首先 对 模型 进行 描述 ， 并 将 其 编译 为 初始 未 训练 状态 ， 然 后 调用 fit 方法 ,通过 反 向 传播 
每 个 样本 的 误差 来 学 习 最 后 面 的 卷 积 核 和 前 馈 全 连接 网 络 之 间 的 权重 , 以 及 250 个 不 同 的 卷 积 核 
各 目的 权重 。 

训练 过 程 中 用 损失 来 报告 进度 , 这 里 我 们 用 的 是 binary_crossentropy。 对 于 每 个 批 次 ， 
Keras 都 报告 一 个 度量 指标 ， 即 我 们 与 为 该 样本 提供 的 标签 之 间 的 距离 。 精 确 率 是 指 “ 正 确 猜测 
的 百分比 "。 这 个 度量 指标 看 起 来 很 有 趣 ， 但 肯定 会 误导 人 ,尤其 是 当 使 用 的 是 不 平衡 数据 集 的 
时 候 。 假设 有 100 个 样本 : 其 中 99 个 是 正 例 , 只 有 一 个 是 负 例 。 即 使 不 看 数据 ,直接 把 所 有 100 
个 样本 全 部 预测 为 正 例 ， 也 仍然 有 99% 的 精确 率 , 但 是 这 对 模型 泛 化 没有 任何 帮助 。val_loss 
和 val_acc 是 相同 的 度量 指标 ， 只 是 针对 的 是 如 下 测试 数据 集 : 

>>> validation data=(x test, y test) 

验证 样本 不 会 展示 给 网 络 进行 训练 ， 只 用 来 验证 模型 的 预测 效果 , 并 产生 度量 指标 报告 。 反 
向 传播 算法 不 会 发 生 在 这 些 样 本 上 。 这 有 助 于 跟踪 模型 在 新 的 、 真 实数 据 上 的 泛 化 效果 。 

这 样 大 家 就 已 经 完成 了 一 个 模型 的 训练 ,魔术 结束 了 ,大 家 已 经 把 盒子 里 的 一 切 都 弄 明白 了 。 
那 这 有 什么 作用 呢 ? 接 下 来 我 们 看 看 它 的 作用 。 


























































































































7.4.7 ”在 流水 线 中 使 用 模型 


大 家 拿 到 一 个 训练 完成 的 模型 之 后 , 可 以 向 模型 传人 一 个 新 的 样本 数据 , 看 看 网 络 会 如 何 识 
别 这 个 数据 。 输 入 数据 可 以 是 一 条 聊天 消息 或 者 Twitter 等 ， 在 这 里 的 例子 中 ,我 们 用 的 是 一 个 
虚构 的 数据 。 

首先 ， 如 果 模 型 不 在 内 存 中 ， 则 需要 从 模型 文件 中 实例 化 训练 好 的 模型 ， 如 代码 清单 7-17 所 示 。 


代码 清单 7-17 ”加载 保 存 的 模型 


>>> from keras.models import model from json 

>>> with open("cnn model.json", "“r") as json file: 
bd json string = json file.read() 

>>> model = model from json(json string) 














>>> model.load weights('cnn weights.h5') 








异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 





7.4 狭窄 的 窗口 213 


我 们 编 一 个 带 有 明显 负 向 情感 的 句子 ， 看 看 网 络 对 此 有 什么 看 法 。 具 体 做 法 参见 代码 清单 7-18。 


代码 清单 7-18 测试 样本 


>>> sample 1 = "I hate that the dismal weather had me down for so long, 
= when will it break! Ugh, when does happiness return? The sun is blinding 
= and the puffy clouds are too thin. I can't wait for the weekend." 


有 了 训练 好 的 模型 ， 可 以 快速 地 对 新 样本 数据 进行 测试 。 虽 然 还 是 需要 大 量 的 计算 ， 不 过 对 于 
每 个 样本 ， 只 需要 一 次 前 向 传播 就 能 得 到 结果 ， 不 需要 反 向 传播 。 具 体 做 法 参见 代码 清单 7-19。 





代码 清单 7-19 ”预测 
在 元 组 的 第 一 个 元 素 中 传递 一 个 虚 值 ， 因 为 你 的 
助手 希望 以 你 处 理 初始 数据 的 方式 得 到 它 。 这 个 
值 永远 看 不 到 网 络 ， 所 以 它 可 以 是 任意 值 


>>> vec list = tokenize and vectorize([(1, sample 1)]) XE 











>>> test vec list = pad truncl(vec list, maxlen) < 


>>> test vec = np.reshape (test vec list, (lenl(test vec list), maxlen,\ 











本 embedding_dims) ) Tokenize 返回 的 是 一 个 数据 列表 ( 这 
>>> model.predict (test vec) 个 例子 里 列表 长 度 为 1) 
array([[ 0.12459087]], dtype=float32) 





Keras 中 predict 方法 给 出 了 网 络 最 后 一 层 的 原始 输出 ， 在 本 例 中 ,我 们 只 有 一 个 神经 元 ， 
因为 最 后 一 层 是 sigmoid， 它 将 输出 一 个 0 到 1 之 间 的 值 。 

Keras 中 predict classes 方法 可 以 输出 大 家 期 待 的 0 或 1。 如 果 是 多 分 类 问题 ,网 络 的 
最 后 一 层 可 能 是 softmax 函数 ， 每 个 输出 节点 代表 一 个 类 ， 节 点 的 输出 值 为 该 类 的 概率 ,调用 
predict classes 方法 将 返回 输出 概率 值 最 高 的 那个 节点 。 

回 到 本 例 中 : 


>>> model .predict classes (test_vec) 
array ([[0]], dtype=int32) 


输出 确实 是 “ 负 向 ”情感 。 

包含 “happiness”“sun”“puffy”“clouds” 等 词 的 句子 不 一 定 总 是 充满 积极 情感 的 ， 就 像 带 
有 “dismal”“break”“down” 等 词 的 句子 也 不 一 定 代表 消极 情感 。 通 过 训练 好 的 神经 网 络 ,我 们 
能 够 检测 句子 中 潜在 的 模式 并 从 数据 的 泛 化 中 学 到 一 些 东 西 ， 而 无 须 硬 编码 任何 规则 。 








7.4.8 前 景 展望 


在 引言 中 ， 我 们 讨论 了 CNN 在 图 像 处 理 中 的 重要 性 。 一 个 容易 被 忽略 的 关键 点 是 网 络 处 理 
信息 通道 (channel ) 的 能 力 。 在 黑白 图 像 中 ,二 维 图 像 有 一 个 通道 ， 每 个 数据 点 表示 像素 的 灰 度 
值 , 从 而 得 到 一 个 二 维 的 输入 数据 。 在 彩色 图 像 中 , 输入 仍然 是 像素 强度 , 但 是 它 被 分 为 红 、 绿 、 
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蓝 3 种 成 分 ， 从 而 使 网 络 的 输入 变 成 一 个 三 维 张 量 。 卷 积 核 也 随 之 变 成 三 维 的 ， 在 x、y 平面 上 
还 是 3x3 或 5x5, 但 有 了 3 层 的 深度 ,使 卷 积 核 变 为 “3 像素 宽 x3 像素 高 x3 通道 深 ”， 这 个 模 
式 在 自然 语言 处 理 中 得 到 了 有 趣 的 应 用 。 

网 络 的 输入 是 一 系列 彼此 相 邻 的 以 向 量 表示 的 词 ，400 个 词 宽 (最 大 长 度 ) x 300 个 元 素 长 ， 
然后 使 用 Word2vec 仍 人 作为 词 向 量 表示 。 正 如 大 家 在 前 几 章 中 看 到 的 ， 可 以 有 多 种 方式 来 生成 
词 误 入 。 如 果 选 择 多 种 词 戏 和 方式 并 将 它们 限制 为 相同 的 元 素数 , 就 可 以 把 它们 爱 加 起 来 像 通道 
那样 , 这 是 向 网 络 添加 信息 的 一 种 有 趣 的 方式 ,尤其 是 当 各 种 词 检 入 来 自 不 同 的 源 时 。 这 种 琶 加 
各 种 词 通 入 的 方式 会 导致 模型 复杂 度 成 倍增 长 ,使 训练 时 间 变 长 ， 从 而 可 能 会 得 不 偿 失 。 不 过 现 
在 大 家 可 以 明白 为 什么 我 们 一 开始 用 图 像 处 理 来 做 类 比 。 人 然而,， 词 租 入 中 各 个 维度 彼此 不 相关 ， 
这 与 图 像 处 理 中 的 颜色 通道 并 不 一 样 ， 所 以 图 像 处 理 的 例子 仅 供 参 考 。 

我 们 简要 介绍 了 卷 积 层 的 输出 〈 在 进入 前 馈 层 之 前 )。 这 种 语义 表示 是 一 个 重要 的 组 件 ， 它 
在 很 大 程度 上 实现 了 用 数字 表示 输入 文本 的 细节 以 及 内 在 含义 。 具体 在 这 个 例子 中 , 通过 学 习 样 
本 数据 的 正 负 情感 标签 并 进行 情感 分 析 , 实现 了 文本 细节 和 含义 的 表示 。 通过 在 男 一 组 特定 主题 
标记 的 分 类 数据 集 上 训练 生成 的 向 量 将 包含 许多 不 同 的 信息 。 直接 使 用 卷 积 神经 网 络 的 中 间 向 量 
并 不 常见 , 但 在 接 下 来 的 章节 中 大 家 会 看 到 一 些 其 他 神经 网 络 结构 的 例子 , 其 中 中 间 向 量 的 具体 
信息 变 得 非常 重要 ， 在 某 些 情况 下 甚至 就 是 网 络 的 最 终 目 标 。 

为 什么 在 NLP 分 类 任务 中 选择 CNN 呢 ? 它 的 主要 好 处 是 高 效率 。 在 许多 方面 , 由 于 池 化 层 
和 卷 积 核 大 小 所 造成 的 限制 (虽然 可 以 将 卷 积 核 设置 得 更 大 )， 会 导致 丢弃 大 量 的 信息 ， 但 这 并 
不 意味 着 它们 不 是 有 用 的 模型 。 大 家 已 经 看 到 ， 利 用 CNN 能 够 有 效 地 对 相对 较 大 的 数据 集 进行 
检测 和 预测 情感 ， 即 使 依赖 Word2vec 词 艇 入 ，CNN 也 可 以 在 不 映射 整个 语言 的 条 件 下 ,通过 较 
少 的 词 戏 入 表示 来 运行 。 

CNN 还 可 以 用 在 哪些 领域 呢 ? 这 在 很 大 程度 上 取决 于 可 用 的 数据 集 ， 一 般 来 说 ， 可 以 通过 
受 加 卷 积 层 来 获得 意义 更 丰富 的 模型 ,例如 将 第 一 组 卷 积 核 的 输出 作为 样本 数据 传人 第 二 组 ， 以 
此 类 推 。 经 研究 还 发 现 , 使 用 多 个 大 小 不 同 的 卷 积 核 运 行 模型 ,并 将 各 个 大 小 不 同 的 卷 积 核 输 出 
连接 成 一 个 更 长 的 思想 向 量 , 然后 再 将 其 传递 到 最 终 的 前 馈 网 络 可 以 提供 更 精确 的 结果 。 世 界 是 
开放 的 ， 尽 情 实验 和 享受 吧 ! 















































































































































7.5 小 结 


卷 积 是 在 一 个 大 的 数据 集 上 滑动 窗口 (使 关注 点 保持 在 整体 的 一 个 子 集 上 )。 
神经 网 络 可 以 像 处 理 图 像 一 样 处 理 文 本 并 “理解 ”它们 。 

用 dropout 来 阻 得 学 习 过 程 实际 上 是 有 帮助 的 。 

情感 不 仅 存在 于 词 中 ， 还 存在 于 使 用 的 语言 模式 中 。 

神经 网 络 有 很 多 可 调 参 数 。 
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本 章 主要 内 容 

图 具备 记忆 功能 的 神经 网 络 
图 循环 神经 网 络 的 构建 

图 循环 神经 网 络 的 数据 处 理 
图 随时 间 反 向 传播 (BPTT ) 








第 7 章 展 示 了 卷 积 神经 网 络 如 何 分 析 文 章 片段 或 者 一 个 句子 , 通过 给 序列 中 的 邻近 词 传递 一 
个 共享 权重 的 过 滤器 ( filter ) 来 跟踪 这 些 词 ( 在 词 向 量 上 进行 卷 积 )。 这 样 出 现在 文档 中 不 同 复 
的 词 就 可 以 被 一 起 检测 。 即 使 这 些 词 在 位 置 上 有 一 些 略 微 变化 , 网 络 也 能 对 这 些 变 化 具有 一 定 的 
容忍 度 。 重 要 的 是 ,彼此 相 邻 的 概念 会 对 网 络 产生 重大 的 影响 , 但 是 如 果 我 们 想 要 从 更 长 远 的 角 
度 来 考虑 时 序 更 长 的 关系 , 例如 比 一 个 句子 的 3 个 或 者 4 个 词 条 更 宽 的 窗口 ， 该 怎么 办 呢 。 大 家 
能 给 这 种 网 络 一 个 基础 概念 吗 ? 例如， 通过 记忆 的 方式 ? 

我 们 已 经 学 习 过 ， 对 于 前 馈 网 络 (feedforward network ) 的 每 个 训练 样本 ( 或 一 批 无 序 样本 ) 
和 输出 (或 一 批 输 出 )， 单 个 神经 元 中 的 网 络 权 重 会 根据 误差 使 用 反 向 传播 算法 (backpropagation ) 
进行 调整 。 输 入 数据 的 顺序 在 很 大 程度 上 不 会 影响 下 一 个 样本 学 习 阶 段 的 效果 。 卷 积 神经 网 络 试 
图 通过 捕捉 局 部 关系 来 发 掘 某 种 顺序 关系 ， 但 还 有 另 一 种 方法 可 以 获得 文本 的 序列 关系 。 

在 一 个 卷 积 神经 网 络 中 , 我 们 将 每 个 样本 作为 一 组 聚集 在 一 起 的 词 条 输入 网 络 。 词 向 量 排 列 
在 一 起 组 成 一 个 矩阵 。 这 个 矩阵 形 如 ( 词 向 量 长 度 x 样本 词 个 数 )， 如 图 8-1 所 示 。 

但 在 第 5 章 中 (如 图 8-2 所 示 ), 我 们 就 曾 将 词 向 量 序列 输入 一 个 标准 的 前 馈 网 络 中 , 对 吧 ? 

诚然 , 这 是 一 个 可 行 的 模型 。 当 词 条 以 这 种 方式 传人 一 个 前 馈 网 络 中 时 ， 网络 能 够 捕捉 词 条 
之 间 的 共 现 关系 ， 而 这 正 是 我 们 想 要 的 。 但 不 管 这 些 共 现 的 词 是 被 长 文本 分 开 还 是 彼此 相 邻 ,网 
络 都 会 对 它们 做 出 相同 的 反应 ( 指 系 数 乘 以 权重 后 相 加 )， 并 且 ， 像 CNN 这 样 的 前 馈 网 络 不 能 
很 好 地 处 理 可 变 长 度 的 文本 。 如 果 文 本 超过 网 络 宽度 ， 网 络 就 无 法 处 理 文本 超出 的 部 分 。 





































































































































































































Q@ 前 馈 网 络 通常 指 DNN 和 CNN。 一 一 译 者 注 
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输出 层 
(对 于 某 个 给 定 的 过 滤器 ) 


图 8-1 ”使 用 词 炭 入 的 一 维 卷 积 









































前 馈 网 络 的 主要 优点 是 能 够 将 数据 样本 作为 整体 与 其 关联 标签 之 间 的 关系 进行 建 模 。 尽管 文 
本 开头 和 结尾 的 词 与 中 间 的 词 之 间 不 太 可 能 存在 语义 关系 , 但 是 它们 对 输出 的 影响 一 样 。 当 我 们 
考虑 表示 强烈 的 否定 词 和 修饰 语 (形容 词 和 副词 ) 的 词 条 ， 如 “not” 或 者 “good” 时 ,我 们 可 
以 看 到 这 种 文本 所 具备 的 同 质 性 或 者 “影响 的 一 致 性 ”是 如 何 导致 问题 的 。 在 前 馈 网 络 中 ， 否 定 
词 会 影响 句子 中 所 有 词 的 含义 ， 其 至 是 距离 否定 词 可 能 影响 到 的 位 置 较 远 的 那些 词 。 

通过 观察 词 的 滑动 窗口 ,一 维 卷 积 为 我 们 提供 了 一 种 处 理 词 条 间 关 系 的 方法 。 第 7 章 讨论 的 
池 化 层 (pooling layer ) 是 专门 设计 用 来 处 理 轻 微 词 序 变化 的 。 在 本 章 中 ， 我 们 将 介绍 一 种 完全 
不 同 的 方法 。 通 过 这 种 方法 , 我 们 将 初步 学 习 神 经 网 络 的 记忆 概念 。 不 同 于 将 语言 视 作 一 个 大 数 
据 块 ， 我 们 可 以 按照 语言 序列 创建 的 时 间 顺 序 ， 逐 个 词 条 地 查看 序列 。 
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The cat and dog went to the bodega together 
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激活 函数 


sum(w, xz) 














神经 元 输出 











激活 函数 


Rsum(w; x xi)) 


一 > 预测 结果 


图 8-2 文本 输入 前 馈 网 络 
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当然 , 文档 中 的 词 很 少 是 完全 独立 的 , 它们 的 出 现 会 影响 文档 中 的 其 他 词 或 者 受到 文档 中 其 
他 词 的 影响 : 
The stolen car sped into the arena. 
( 那 辆 偷 来 的 汽车 飞快 地 开 进 了 竞技 场 。) 
The clown car sped into the arena. 
〈《 那 辆 小 丑 车 快速 驶 进 了 性 台 。 
当 读者 读 到 这 两 个 句子 的 末尾 时 可 能 会 产生 两 种 完全 不 同 的 情感 。 这 两 个 句子 的 形容 
词 、 名 词 、 动 词 和 介词 短语 结构 是 完全 相同 的 ， 但 位 于 句 首 的 形容 词 极 大 地 影响 了 读者 后 续 
的 推断 。 
大 家 能 想 出 一 种 对 这 种 关系 进行 建 模 的 方法 吗 ? 一 种 形容 词 不 直接 修饰 或 出 现在 句 首 时 也 
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能 理解 “arena” 甚 至 “sped” 的 隐 含 意义 可 能 会 稍 有 不 同 的 方法 ? RNN 
假如 大 家 能 想到 一 种 方式 “记忆 ”之 前 时 刻 发 生 的 事情 ( 尤其 是 当 我 
们 在 本 1 时 刻 时 ,+t 时 刻 发 生 的 ), 我 们 就 能 捕获 当 序 列 中 某 些 词 条 出 现时 ， 
其 他 词 条 相对 应 会 出 现 的 模式 。 循环 神经 网 络 ( recurrent neural net, RNN ) 
使 神经 网 络 能 够 记 住 句子 中 出 现 过 的 词 。 

我 们 从 图 8-3 可 以 看 到 ， 隐 藏 层 中 的 单个 循环 神经 元 增加 了 一 个 循环 
回路 使 1 时 刻 隐 藏 层 的 输出 重新 输入 隐藏 层 中 。t 时 刻 的 输出 会 作为 ttl 时 
刻 的 输入 。 这 个 新 的 输入 会 由 #+1 时 刻 的 网 络 处 理 来 产生 t+1 时 刻 隐藏 层 
的 输出 。 而 二 +1 时 刻 的 输出 接 下 来 又 会 被 重新 作为 +2 时 刻 的 输入 ， 以 此 


二 
类 推 。 


尽管 根据 时 间 变 化 影响 状态 的 思想 一 开始 可 能 会 让 人 感觉 有 些 困惑 ， 
但 是 其 基本 概念 简单 明了 。 对 于 传 和 一般 前 馈 网 络 的 每 个 输入 ,我 们 在 1 
时 刻 得 到 的 网 络 输出 会 作为 网 络 的 一 个 额外 输入 ， 与 下 一 份 在 tt1 时 刻 的 
数据 一 起 输入 网 络 。 这 样 ， 我 们 就 可 以 告诉 前 馈 网 络 之 前 发 生 了 什么 和 “ 现 
在 ”正在 发 生 什 么 。 图 8-3 ”循环 神经 网 络 




















循环 回路 
































重要 说 明 在 本 章 及 下 一 章 , 我们 谈论 最 多 的 事情 就 是 时 刻 或 时 间 步 (time step )。 这 和 单独 的 数据 
样本 不 是 一 回 事 。 我 们 谈论 的 是 一 份 数据 样本 分 解 成 更 小 的 可 以 表示 时 间 变 化 的 块 。 单 个 数据 样本 
仍 是 文本 的 某 一 部 分 ， 如 一 人 小段 影评 或 者 一 条 Twitter。 和 之 前 一 样 ， 我 们 还 是 会 对 句子 进 行 分 词 ， 
但 是 不 同 于 以 往 一 次 性 地 将 所 有 词 条 输入 网 络 ， 我 们 会 在 一 个 时 刻 输入 一 个 词 条 。 这 和 有 多 个 新 文 
本 的 样本 完全 不 同 。 这 些 词 条 仍然 是 同一 个 标签 的 一 个 数据 样本 的 一 部 分 。 

我 们 可 以 认为 1 代表 词 条 序列 的 下 标 。 所 以 t= 0 是 文档 中 的 第 一 个 词 条 ， 而 t+ 1 则 代表 文档 的 下 
一 个 词 条 。 那 些 在 文档 中 依次 出 现 的 词 条 将 会 作为 每 个 时 刻 ( 时间 步 ) 或 者 词 条 步 的 输入 。 并 且 ， 
词 条 不 一 定 是 某 个 词 ， 单 个 字符 也 可 以 作为 词 条 。 在 某 一 时 刻 输 入 一 个 词 条 是 将 数据 样本 传 入 网 络 
的 一 个 子 步 ( substep )。 

自始至终 ， 我 们 将 当前 时 刻 标 为 1， 下 一 时 刻 标 为 1+ 1。 


如 图 8-3 所 示 , 我 们 可 以 看 到 一 个 循环 网 络 : 整个 循环 是 由 一 个 或 者 多 个 神经 元 组 成 的 前 僻 
网 络 层 。 网络 隐藏 层 的 输出 和 普通 的 输出 一 样 , 但 是 它 本 身 会 和 下 一 个 时 刻 的 正常 输入 数据 一 起 
作为 输入 回 传 进 网 络 。 这 个 反馈 表示 为 从 隐藏 层 的 输出 指向 它 的 输入 的 箭头 。 

理解 这 个 过 程 的 一 个 更 简单 的 方法 (通常 如 此 显示 ) 是 展开 这 个 网 络 。 图 8-4 从 新 的 角度 ， 
展示 了 网 络 随 时 间 变 量 (1) 展开 两 次 的 图 形 ， 显 示 了 t+ 1 时 刻 和 +t+2 时 刻 的 网 络 层 。 

每 个 时 刻 由 完全 相同 的 神经 网 络 展 开 后 的 一 列 神经 元 表示 。 就 像 在 时 刻 中 查看 每 个 样本 的 神 
经 网 络 的 剧本 或 视频 帧 一 样 。 右 侧 网 络 是 左 侧 网 络 的 未 来 版 本 。 在 一 个 时 刻 (1) 的 隐藏 层 的 输 
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Q@ 在 金融 、 动 力学 和 反馈 控制 中 ,这 通常 被 称 为 自 回 归 滑 动 平均 ( auto-regressive moving average，ARMA ) 
模型 。 
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出 被 回 传 到 隐藏 层 以 及 用 作 右 侧 下 一 个 时 刻 (t+ 1 ) 的 输入 数据 ， 如 此 循环 往复 。 此 图 显示 了 这 
一 展开 的 两 次 近代， 因此 对 于 记 0、 磊 1 和 大 2， 有 3 列 神经 元 。 








RNN “展开 ”的 同一 个 RNN 


隐藏 层 





图 8-4 ”展开 循环 神经 网 络 





























这 个 可 视 化 视图 中 的 所 有 垂直 路 径 都 是 克隆 的 , 或 者 说 是 完全 相同 神经 元 的 视图 。 它们 在 时 
间 轴 上 是 单个 网 络 表 示 的 。 当 讨论 信息 在 反 向 传播 算法 中 是 如 何在 网 络 中 前 向 和 反 向 流动 时 , 这 
种 可 视 化 非常 有 用 。 但 是 ， 当 我 们 观察 这 3 个 展开 的 网 络 时 , 请 记 住 它们 都 是 同一 个 网 络 的 不 同 
快照 (snapshot )， 只 有 一 组 权重 。 

我 们 放大 一 个 循环 神经 网 络 展 开 前 的 原始 表示 , 揭示 输入 和 权重 之 间 关 系 。 这 个 循环 网 络 的 
各 个 层 如 图 8-5 和 图 8-6 所 示 。 

















图 8-5 t= 0 时刻 的 循环 神经 网 络 
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t= 1 时 刻 的 
原始 输入 
1= 1 时 刻 的 输入 
1= 0 时 刻 的 包含 (= 0 时 刻 的 输出 
原始 输出 











图 8-6 ”t= 1 时 刻 的 循环 神经 网 络 








处 于 隐藏 状态 的 每 个 神经 元 都 有 一 组 权重 ， 它 们 应 用 于 每 个 输入 向 量 的 每 个 元 素 ， 这 和 一 
般 的 前 馈 网 络 一 样 。 但 是 ， 现 在 我 们 有 一 组 额外 的 可 训练 权重 ， 这 些 权 重 应 用 于 前 一 个 时 刻 隐 
藏 层 神经 元 的 输出 。 当 我 们 逐个 词 条 地 输入 序列 时 ， 网 络 可 以 学 习 分 配给 “过 去 ”的 事件 多 少 
权重 或 者 重要 度 。 


提示 序列 中 的 第 一 个 输入 没有 “过 去 ”， 因 此 1=0 时 刻 的 隐藏 状态 从 其 六 1 时 刻 接收 输入 为 0。 
“填充 ”初始 状态 值 的 另 一 种 方法 是 ， 首 先 将 相关 但 分 开 的 样本 一 个 接 一 个 地 传递 到 网 络 中 ， 然 后 
个 样本 的 最 终 输 出 用 于 下 一 个 样本 1=0 时 刻 的 输入 。 在 8.5.1 节 中 ， 我 们 将 学 习 如 何 使 用 另 一 种 
“填充 ”方法 保留 数据 集中 的 更 多 信息 。 


我 们 回 到 数据 : 假设 我 们 有 一 组 文档 ， 每 篇 文档 都 是 一 个 带 标签 的 样本 。 对 于 每 个 样本 ,不 
同 于 上 一 章 中 一 次 性 地 将 词 向 量 集合 传递 进 卷 积 神经 网 络 〈 如 图 8-7 所 示 )， 这 次 是 从 样本 中 一 
次 取 一 个 词 条 并 将 其 单独 传递 到 我 们 的 RNN 中 ( 如 图 8-8 所 示 )。 

在 循环 神经 网 络 中 , 我 们 传人 第 一 个 词 条 的 词 向 量 并 获得 网 络 的 输出 ,然后 传人 第 二 个 词 条 
的 词 向 量 , 同时 也 传人 第 一 个 词 条 的 输出 ! 然 后 传人 第 三 个 词 条 的 词 向 量 以 及 第 二 个 词 条 的 和 输出， 
以 此 类 推 。 网 络 中 有 前 后 概念 和 因果 关系 ， 以 及 一 些 模糊 的 时 间 概 念 〈《 如 图 8-8 所 示 )。 

现在 我 们 的 网 络 正 在 记 住 一 些 东 西 ! 好 吧 ,， 至 少 有 一 点 儿 像 。 但 还 有 一 些 事情 需要 我 们 弄 明 
白 ， 首 先 ， 反 向 传播 算法 是 如 何在 这 样 的 结构 中 工作 的 ? 











Ey 
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The clown Car sped into the arena 











图 8-7” 传 入 卷 积 网 络 的 数据 











循环 神经 网 络 

















图 8-8 ” 传 入 循环 网 络 的 数据 





8.1.1 随时 间 反 向 传播 算法 

到 目前 为 止 ， 我 们 讨论 的 所 有 网 络 都 有 一 个 标签 〈 目标 变量 )， 而 循环 神经 网 络 也 不 例外 。 
但 是 ， 并 不 是 说 每 个 词 条 都 有 一 个 标签 ， 而 是 每 个 样本 中 的 所 有 词 条 只 有 一 个 标签 。 也 就 是 说 ， 
对 于 样本 文档 ， 只 有 一 个 标签 。 
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... Aand that is enough. 





Isadora Duncan 


提示 “我 们 谈 谈 网 络 在 各 个 时 刻 输入 的 词 条 ， 循 环 神经 网 络 可 以 在 任何 类 型 的 时 间 序 列 数据 上 工作 。 
我 们 的 词 条 可 以 是 离散 的 或 连续 的 : 如 来 自 气象 站 的 读数 、 音 符 、 名 子 中 的 字符 等 ， 由 大 家 决定 。 


这 里 , 我 们 开始 会 在 最 后 一 个 时 刻 查 看 网 络 的 输出 , 并 将 该 输出 与 标签 进行 比较 。 这 就 是 ( 目 
前 ) 对 于 误差 (error ) 的 定义 ， 而 误差 是 我 们 的 网 络 最 终 想 要 尽量 减 小 的 目标 ， 但 是 这 里 要 介绍 
的 处 理 输出 的 方式 与 前 几 章 的 有 所 不 同 。 对 于 给 定 的 数据 样本 ， 我 们 可 以 将 其 分 成 较 小 的 片段 ， 
这 些 片 段 按 顺序 进入 网 络 。 但 是 ,我 们 并 不 直接 处 理 这 些 由 “ 子 样本 ”产生 的 所 有 输出 ， 而 是 将 
其 反馈 给 网 络 。 

我 们 只 关心 最 终 的 输出 ,至 少 现在 如 此 。 将 序列 中 的 每 个 词 条 输入 网 络 中 ,并 根据 序列 中 最 
后 一 个 时 刻 〈 词 条 ) 的 输出 计算 损失 ， 如 图 8-9 所 示 。 


























error = Y_true_label - y_output 


图 8-9 只 有 最 后 的 输出 影响 结果 


对 于 给 定 样本 的 误差 , 我 们 需要 确定 哪些 权重 需要 更 新 以 及 需 更 新 多 少 。 在 第 5 章 中 ,我 们 
学 习 了 在 标准 的 网 络 中 如 何 反 向 传播 误差 , 并 且 我 们 知道 对 每 个 权重 校正 多 少 取决 于 该 权重 对 误 
差 的 贡献 程度 。 我 们 可 以 输入 样本 序列 中 的 各 个 词 条 , 并 根据 之 前 时 刻 的 网 络 输出 计算 误差 , 但 
是 这 也 正 是 不 能 在 时 间 序 列 上 应 用 反 向 传播 算法 的 原因 。 

可 以 这 样 来 考虑 : 将 整个 过 程 视 为 基于 时 间 的 。 我 们 在 每 个 时 刻 取 一 个 词 条 ， 从 t= 0 处 的 
第 一 个 词 条 开始 ,将 它 输 入 当前 的 隐藏 层 神经 元 一 一 图 8-9 中 的 下 一 列 。 当 我 们 这 样 做 时 ， 网 络 
会 展开 并 揭示 下 一 列 ， 为 序列 中 的 下 一 个 词 条 做 好 准备 。 隐 藏 层 的 神经 元 不 断 展开 ， 一 次 一 个 ， 
就 像 是 音乐 盒 或 钢琴 的 演奏 。 当 我 们 到 达 终点 ,在 输入 样本 的 所 有 片段 之 后 ,网络 将 停止 展开 并 
且 我 们 将 获得 目标 变量 的 最 终 输出 标签 。 我 们 可 以 使 用 该 输出 来 计算 误差 并 调整 权重 。 这 样 ,， 我 
们 就 完成 了 这 个 展开 网 络 计算 图 的 所 有 环节 。 

此 时 , 我 们 可 以 将 整个 输入 视 为 静态 的 。 通过 计算 图 我 们 可 以 看 到 各 个 神经 元 分 别 送 入 了 哪 
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个 输入 。 一 旦 知道 各 个 神经 元 是 如 何 工作 的 ,我 们 就 可 以 循 着 之 前 的 方法 ， 像 在 标准 前 馈 网 络 中 
做 的 那样 运用 反 向 传播 。 

我 们 将 使 用 链 式 法 则 反 向 传播 到 前 一 层 。 但是, 不 同 于 传播 到 上 一 层 , 这 里 是 传播 到 过 去 的 
层 ， 就 好 像 每 个 展开 的 网 络 版 本 都 不 同 ( 如 图 8-10 所 示 )。 数 学 公式 是 一 样 的 。 















































error = y_true_label - y_output 





图 8-10 ”随时 间 反 向 传播 

我 们 将 反 向 传播 在 最 后 一 个 时 刻 获 得 的 误差 。 对 于 每 个 “ 较 早 ”的 时 刻 ， 都 要 执行 更 新 时 刻 
的 梯度 。 对 于 该 样本 , 在 计算 了 所 有 词 条 的 梯度 之 后 , 我 们 将 聚合 这 些 校 正 值 并 将 它们 应 用 于 整 
套 权重 的 更 新 ， 直 至 回 到 时 刻 += 0。 
简要 回顾 


四 将 每 个 数据 样本 切 分 为 词 条 。 

四 将 每 个 词 条 输入 前 馈 网 络 中 。 

国 将 每 个 时 刻 的 输出 以 及 下 一 个 时 刻 的 输入 作为 同一 层 的 输入 。 
国 

国 





























获取 最 后 一 个 时 刻 的 输出 并 将 其 与 标签 进行 比较 。 
在 整个 计算 图 中 反 向 传播 误差 .一直 回 到 第 一 个 时 刻 1=0 的 输入 。 











8.1.2 不 同时 刻 的 权重 更 新 


我 们 已 经 将 看 似 奇 怪 的 循环 神经 网 络 转换 为 类 似 于 标准 前 馈 网 络 的 东西 ， 这 样 可 以 使 权重 更 新 
变 得 相当 简单 。 但 是 这 里 有 一 个 问题 。 更 新 过 程 中 丈 手 的 部 分 是 我 们 正在 更 新 的 权重 不 是 神经 网 络 
的 不 同 分 支 , 每 个 分 支 代表 着 位 于 不 同时 刻 的 相同 网 络 。 各 个 时 刻 的 权重 是 相同 的 ( 如 图 8-10 所 示 )。 

一 个 简单 的 解决 方案 是 计算 各 个 时 刻 的 权重 校正 值 但 不 立即 更 新 。 在 前 馈 网 络 中 , 一 旦 为 输 
入 样本 计算 了 所 有 梯度 ,所 有 权重 的 校正 值 就 会 被 计算 。 这 对 循环 神经 网 络 同样 适用 , 但 对 该 输 
入 样本 我 们 必须 一 直 保 留 这 些 校正 值 ， 直 至 回 到 时 刻 t= 0。 
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梯度 计算 需要 基于 权重 对 误差 的 贡献 量 。 这 里 是 令 人 费解 的 部 分 : 在 时 刻 :一 个 权重 在 初次 
计算 时 对 误差 产生 了 贡献 , 而 该 权重 在 时 刻 ++t 会 接收 到 不 同 的 输入 , 因此 之 后 对 误差 的 贡献 量 
也 会 有 所 不 同 。 

我 们 可 以 计算 出 权重 在 每 个 时 刻 的 不 同 校正 值 ( 就 像 它们 在 气泡 中 一 样 )， 然 后 聚合 所 有 校 
正 值 并 在 学 习 阶 段 的 最 后 一 步 将 其 应 用 于 隐藏 层 的 各 个 权重 。 


提示 在 所 有 这 些 示例 中 ,我 们 前 向 传播 传 入 单个 训练 样本 ,然后 反 向 传播 误差 。 与 所 有 神经 网 络 
一 样 ， 这 种 前 向 传递 可 以 依据 每 个 训练 样本 进行 ， 也 可 以 分 批 进行 。 事实 证明， 批 处 理 除 加 速 之 外 
还 有 其 他 好 处 。 但 现在 ， 请 仅 从 单个 数据 样本 、 单 个 句子 或 文档 来 考虑 这 些 过 程 。 


这 似乎 很 神奇 。 对 于 单个 数据 样本 ， 随 时 间 反 向 传播 算法 中 的 单个 权重 在 一 个 时 刻 t 可 能 会 在 一 
个 方向 上 进行 调整 《取决 于 其 在 时 刻 :对 输入 的 反应 ) 然后 在 时 刻 1-1 在 男 一 个 方向 上 进行 调整 ( 取 
决 于 其 在 时 刻 1 一 1 对 输入 的 反应 )! 但 是 请 记 住 , 不 管 中 间 步骤 有 多 复杂 , 神经 网 络 一 般 都 是 通过 最 小 
化 损失 函数 来 工作 的 ， 所 以 总 体 来 说 ， 它 会 对 这 个 复杂 的 函数 进行 优化 。 当 对 每 个 数据 样本 应 用 一 次 
权重 更 新 时 ， 网 络 将 确定 假设 它 是 收敛 的 ) 对 该 输入 样本 来 说 最 适合 处 理 此 任务 的 神经 元 的 权重 。 


至 关 重要 的 前 期 输出 


有 时 ， 我 们 也 会 关心 在 各 个 中 间 时 刻 生成 的 整个 序列 。 在 第 9 章 中 ,我们 将 看 到 一 些 示例 ， 
它们 展示 了 给 定时 刻 1 的 输出 与 最 终 时 刻 的 输出 同样 重要 。 图 8-11 展示 了 在 任意 给 定时 刻 捕获 误 
差 的 路 径 ， 并 在 反 向 传播 期 间 使 用 该 误差 反 向 调整 网 络 的 所 有 权重 。 







































































error = Sum([y_true_label[il - yl[i] for i in range(6)]) 











图 8-11 所 有 的 输出 都 很 重要 


























这 个 过 程 类 似 于 在 n 个 时 刻 执行 普通 的 随时 间 反 向 传播 。 在 本 例 中 , 我 们 现在 正在 同时 从 多 
个 源 反 向 传播 误差 。 但 是 正如 第 一 个 例子 一 样 ,权重 的 校正 值 是 累积 的 , 我 们 从 最 后 一 个 时 刻 一 
直 反 向 传播 到 初始 时 刻 ， 并 且 对 每 个 权重 计算 要 更 新 的 总 数 ， 然 后 对 于 在 倒数 第 二 个 时 刻 计算 出 
的 误差 进行 同样 的 处 理 ， 并 将 反 向 进行 处 理 直 到 时 刻 := 0 将 所 有 的 校正 值 加 起 来 。 重 复 这 个 过 程 ， 
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直到 回 到 时 刻 := 0， 然 后 继续 反 向 传播 ， 此 时 要 聚合 的 值 只 有 一 个 。 接 着 ,我 们 可 以 将 更 新 的 总 
和 一 次 性 地 应 用 于 相关 隐藏 层 的 所 有 权重 。 

在 图 8-12 中 ,我们 可 以 看 到 误差 从 每 个 输出 反 向 传播 到 上 = 0， 并 在 最 后 对 权重 应 用 更 新 之 
前 进行 聚合 。 这 是 本 节 中 最 重要 的 内 容 。 与 标准 的 前 饥 网 络 一 样 ， 对 于 该 输入 〈 或 一 组 输入 )， 
只 有 在 计算 了 整个 反 向 传播 步 又 中 各 权重 需要 更 新 的 校正 值 之 后 , 我 们 才 会 更 新 权重 值 。 在 循环 
神经 网 络 的 情况 下 ， 这 种 反 向 传播 包含 了 所 有 时 刻 到 += 0 的 更 新 。 






































error = suml([y_true_labell[i] - yl[li] for i in range(6)]) 


图 8-12 多 输出 和 随时 间 反 向 传播 


较 早 地 更 新 权重 会 较 早 地 “污染 ” 反 向 传播 中 的 梯度 计算 。 请 记 住 梯度 是 根据 特定 的 权重 计 
算 的 ， 所 以 如 果 要 提前 更 新 它 ， 例 如 在 时 刻 # 那么 当 计算 时 刻 1 一 1 的 梯度 时 ， 权 重 的 值 ( 记 住 
它 在 网 络 中 的 权重 位 置 是 相同 的 ) 会 发 生变 化 。 如 果 根 据 时 刻 1 一 1 的 输入 计算 梯度 ,计算 将 是 
错误 的 。 我 们 将 因为 一 个 权重 没有 对 误差 做 出 的 贡献 而 惩罚 〈 或 奖励 ) 它 ! 














8.1.3 简要 回顾 


现在 我 们 走 到 哪 一 步 了 ? 我 们 已 经 将 每 个 数据 样本 分 割 成 词 条 , 然后 一 个 接 一 个 地 把 它们 输 
入 一 个 前 馈 网 络 。 对 于 每 个 词 条 , 不 仅 要 输入 词 条 本 身 , 还 要 输入 前 一 个 时 刻 的 输出 。 在 时 刻 0， 
我 们 输入 初始 词 条 和 0， 后 者 是 一 个 0 向 量 ， 这 是 因为 之 前 没有 输出 。 我 们 将 比较 最 终 词 条 的 网 
络 输出 与 预期 标签 之 间 的 差异 以 获得 误差 , 然后 随时 间 反 向 传播 该 误差 至 网 络 的 每 个 权重 ,最 后 
我 们 聚合 计算 出 的 校正 值 ， 并 将 它们 同时 应 用 于 网 络 。 

我 们 现在 有 一 个 前 馈 网 络 , 它 有 一 些 类 似 于 时 间 的 概念 和 一 个 能 够 保存 发 生 在 时 间 轴 上 的 记 
忆 的 基本 工具 。 

















8.1.4 ”难点 
尽管 一 个 循环 神经 网 络 需 要 学 习 的 权重 ( 参数 ) 可 能 相对 较 少 , 但 是 从 图 8-12 中 可 以 看 出 ， 





























异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 











226 第 8 章 循环 神经 网 络 ( RNN ) 





训练 一 个 循环 神经 网 络 的 代价 高 晶 ， 尤 其 是 对 于 较 长 的 序列 (如 10 个 词 条 )。 我 们 拥有 的 词 条 
越 多 ， 每 个 时 刻 误差 必须 反 疝 传播 的 时 间 越 长 。 而 对 于 每 一 时 刻 ， 都 有 更 多 的 导数 需要 计算 。 
虽然 循环 神经 网 络 的 效果 并 不 比 其 他 网 络 的 效果 差 , 但 是 请 准备 好 用 计算 机 的 排 气 扇 给 房子 供 
上 暖 吧 。 

撤 开 新 的 供 热 能 源 不 谈 , 我 们 已 经 给 了 神经 网 络 一 个 基本 的 记忆 能 力 , 但 是 当 它 们 ( 指 网 络 
时 刻 ) 变 深 ， 更 多 的 麻烦 也 出 现 了 (一 个 也 可 以 在 常规 的 前 馈 网 络 中 看 到 的 问题 )。 梯 度 消失 问 
题 ( vanishing gradient problem ) 有 一 个 推论 : 梯度 爆炸 问题 ( exploding gradient problem )， 它 们 
的 思想 是 ， 随 着 网 络 变 得 更 深 ( 更 多 层 ) 时 ,误差 信 号 会 随 着 梯度 的 每 一 次 计算 消散 或 增长 。 

循环 神经 网 络 也 面临 着 同样 的 问题 , 因为 在 数学 上 , 时 刻 的 每 一 次 后 退 都 相当 于 将 一 个 误差 
反 向 传播 到 前 馈 网 络 的 前 一 层 。 但 是 这 里 更 糟 ! 尽管 由 于 这 个 原因 , 大 多 数 前 馈 网 络 往 往 只 有 几 
层 深 , 但 是 当 我 们 要 处 理 的 是 5 个 、10 个 ， 其 至 数 百 个 词 条 的 序列 时 ， 要 深入 到 100 层 网 络 的 
底层 还 是 很 困难 的 。 不 过 ,一 个 让 我 们 可 以 继续 工作 、 减轻 压力 的 因素 在 于 : 尽管 梯度 可 能 会 在 
计算 最 后 一 次 权重 集 的 过 程 中 消失 或 爆炸 , 但 是 实际 上 我 们 只 更 新 了 一 次 权重 集 , 并 且 每 个 时 刻 
的 权重 集 都 是 相同 的 。 仍然 有 些 信息 会 传递 出 去 , 虽然 它 可 能 不 是 我 们 认为 所 能 创建 的 理想 记忆 
状态 ,但 是 不 必 害 怕 ， 研 究 人 员 正 在 研究 这 个 问题 ， 对 于 这 个 挑战 在 下 一 章 我 们 会 有 一 些 答案 。 

听 了 如 此 多 令 人 郁闷 的 坏 消息 ， 现 在 我 们 来 看 一 些 魔法 吧 。 




































































8.1.5 利用 Keras 实现 循环 神经 网 络 


我 们 将 从 与 上 一 章 中 所 使 用 的 相同 的 数据 集 和 预 处 理 开 始 。 首 先 , 加载 数 据 集 ， 获 取 标签 并 
随机 打 乱 样本 ， 然 后 对 文档 分 词 并 使 用 谷歌 的 Word2vec 模型 使 其 向 量化 ， 接 下 来 ， 获 取 标 签 ， 
最 后 我 们 按 80/20 的 比例 将 原始 数据 分 成 训练 集 和 测试 集 。 

首先 ， 我 们 需要 导入 数据 处 理 和 循环 神经 网 络 训练 所 需 的 所 有 模块 ， 如 代码 清单 8-1 所 示 。 


代码 清单 8-1 导入 所 有 模块 


>>> import glob 








>>> import os 

>>> from random import shuffle 

>>> from nltk.tokenize import TreebankWordTokenizer 
>>> from nlpia.loaders import get data 

>>> word vectors = get data('wv') 


然后 , 我 们 可 以 构建 数据 预 处 理 模 块 , 它 能 对 数据 进行 训练 前 的 处 理 , 如 代码 清单 8-2 所 示 。 


代码 清单 8-2 数据 预 处 理 模块 


>>> def pre process data (filepath): 


Load pos and neg examples from separate dirs then shuffle them 
together. 
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Positive path = os.path.join(filepath， "pos ') 
negative path = os.path.join(filepath, 'neg') 
pos_label = 1 
neg_label = 0 
dataset = [] 
for filename in glob.globl(os.path.join(positive path, '*.txt')): 
with open(filename, 'r') as f: 
dataset.append( (pos label, f.read())) 
for filename in glob.glob (os.path.join (negative path, '*.txt')): 
with openl(filename, 'r') as f: 
dataset.append( (neg label, f.read())) 
shuffle (dataset) 
return dataset 


与 之 前 一 样 ， 我 们 可 以 将 数据 分 词 和 向 量化 的 方法 写 在 一 个 函数 中 ， 如 代码 清单 8-3 所 示 。 


代码 清单 8-3 ”数据 分 词 和 向 量化 





>>> def tokenize and vectorize (dataset): 
tokenizer = TreebankWordTokenizer() 
vectorized data = [] 
for sample in dataset: 
tokens = tokenizer.tokenize (sample[1]) 
sample vecs = [] 
for token in tokens: 
ts 
sample vecs.append (word vectors[token]) 
exCept ‘KeyError: 


ass & Reng 
ek 在 谷歌 w2v 词汇 表 中 没 
vectorized data.append (sample vecs) 有 匹配 的 词 条 
return vectorized data aR 


并 且 我 们 需要 将 目标 变量 提取 ( 解压 ) 到 单独 的 (但 对 应 的 ) 样本 中 , 如 代码 清单 8-4 所 示 。 





代码 清单 8-4 ”目标 变量 解压 缩 


>>> def collect expected (dataset): 
""" Peel off the target values from the dataset ™"" 
expected = [] 
for sample in dataset: 
expected.append (sample{[0]) 
return expected 


既然 我 们 已 经 写 好 了 所 有 的 预 处 理 函 数 ， 就 需要 在 数据 上 运行 它们 ， 如 代码 清单 8-5 所 示 。 


代码 清单 8-5 ”加 载 和 准备 数 


>>> dataset = pre process data('./aclimdb/train') 

>>> vectorized data = tokenize and vectorize (dataset) 按 80/20 的 比例 划分 为 训练 集 
>>> expected = collect expected (dataset) 和 测试 集 ( 不 用 混 洗 ) 

>>> split point = int(len(vectorized data) * .8) 

>>> x train = vectorized datal:split point] 
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>>> y train = expected[:split point] 
>>> x test vectorized datalsplit point:] 
>>> y_test expected[split point:] 


我 们 将 为 这 个 模型 使 用 相同 的 超 参数 : 每 个 样本 使 用 400 个 词 条 ， 批 大 小 为 32。 词 向 量 是 
300 维 ， 我 们 将 让 它 运 行 2 个 周期 。 具 体 做 法 参见 代码 清单 8-6。 


代码 清单 8-6 ”初始 化 网 络 参数 


>>> maxlen = 400 

>>> batch size = 32 

>>> embedding dims = 300 
>>> epochs = 2 


接 下 来 ,我 们 需要 再 次 填充 和 截断 样本 。 通 常 我 们 不 需要 对 循环 神经 网 络 使 用 填充 或 截断 ， 
因为 它们 可 以 处 理 任意 长 度 的 输入 序列 。 但 是 , 在 接 下 来 的 几 个 步骤 中 , 我 们 将 看 到 所 使 用 的 模 
型 要 求 输入 指定 长 度 的 序列 。 具 体 做 法 参见 代码 清单 8-7。 


代码 清单 8-7 ”加 载 测试 数据 和 训练 数据 





>>> import numpy as np 


>>> x train = pad trunc(x train, maxlen) 
>>> X test = pad trunc(x test, maxlen) 


np.reshape (x train, (len(x train), maxlen, embedding dims)) 
np.array (y_train) 

np.reshape (x test, (len(x test), maxlen, embedding dims)) 
np.array(y_test) 


a 
>>> y_train 
>>> x_test 
>>> y_test 


现在 我 们 已 经 获得 了 数据 ， 是 时 候 构 建 模型 了 。 我 们 将 再 次 从 Keras 的 一 个 标准 的 分 层 模型 
Sequential() (分 层 的 ) 模型 开始 ， 如 代码 清单 8-8 所 示 。 





代码 清单 8-8 初始 化 一 个 空 的 Keras 网 络 





>>> from keras.models import Sequential 

>>> from keras.layers import Dense, Dropout, Flatten, SimpleRNN 
>>> num neurons = 50 

>>> model = Sequential() 


然后 ， 和 之 前 一 样 ， 神 奇 的 Keras 处 理 了 组 装 神经 网 络 的 各 个 复杂 环节 : 我 们 只 需要 将 想 要 
的 循环 层 添加 到 我 们 的 网 络 中 ， 如 代码 清单 8-9 所 示 。 





代码 清单 8-9 添加 一 个 循环 层 


>>> model.add (SimpleRNN( 
num neurons, return sequences=True, 
input_ shape= (maxlen, embedding dims))) 


现在 , 基础 模块 已 经 搭建 完毕 , 可 以 接收 各 个 输入 并 将 其 传递 到 一 个 简单 的 循环 神经 网 络 中 
(不 简单 的 版 本 将 在 下 一 章 介绍 ) 对 于 每 个 词 条 , 将 它们 的 输出 集合 到 一 个 向 量 中 。 因 为 我 们 的 
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序列 有 400 个 词 条 长 ， 并 且 使 用 了 50 个 隐藏 层 神经 元 ， 所 以 这 一 层 的 输出 将 是 一 个 400 个 元 素 
的 向 量 ， 其 中 每 个 元 素 都 是 一 个 50 个 元 素 的 向 量 ， 每 个 神经 元 对 应 着 一 个 输出 。 

注意 这 里 的 关键 字 参 数 return_sequences。 它 会 告诉 网 络 每 个 时 刻 都 要 返回 网 络 输出 ， 
因此 有 400 个 向 量 ， 每 个 向 量 为 50 维 。 如 果 return_sequences 被 设置 为 False ( Keras 的 
默认 行为 ) 那么 只 会 返回 最 后 一 个 时 刻 的 50 维 向 量 。 

在 本 例 中 ，50 个 神经 元 的 选择 是 任意 的 ， 主 要 是 为 了 减少 计算 时 间 。 我 们 用 这 个 数字 做 实 
验 ， 来 看 看 它 是 如 何 影响 计算 时 间 和 模型 精确 率 的 。 

提示 “一 个 好 的 经 验 法 则 是 尽量 使 模型 不 要 比 训练 的 数据 更 复杂 。 说 起 来 容易 做 起 来 难 ， 但 是 这 个 

想法 为 我 们 在 数据 集 上 做 实验 时 的 调 参 提 供 了 一 个 基本 法 则 。 较 复杂 的 模型 对 训练 数据 过 拟 合 ， 泛 

化 效果 不 佳 ; 过 于 简单 的 模型 对 训练 数据 欠 拟 合 ， 而 且 对 于 新 数据 也 没有 太 多 有 意义 的 内 容 。 我 们 

会 看 到 这 个 讨论 被 称 为 偏差 与 方差 的 权衡 。 对 数据 过 拟 合 的 模型 具有 高 方差 和 低 偏差 ， 而 欠 拟 合 的 

模型 恰恰 相反 : 低 方差 和 高 偏差 ， 它 会 用 一 到 的 方式 给 出 管 案 ， 结 果 把 一 切 都 搞 错 了 。 


注意 ,我们 再 次 截断 并 填充 了 数据 ， 这 样 做 是 为 了 与 上 一 章 的 CNN 例子 作 比 较 。 但 是 当 使 用 
循环 神经 网 络 时 ， 通 常 不 需要 使 用 截断 和 填充 。 我 们 可 以 提供 不 同 长 度 的 训练 数据 ， 并 展开 网 络 ， 
直到 输入 结束 , Keras 对 此 会 自动 处 理 。 问题 是 , 循环 层 的 输出 长 度 会 随 着 输入 时 刻 的 变化 而 变化 。 
4 个 词 条 的 输入 将 输出 4 个 元 素 长 的 序列 。100 个 词 条 的 序列 将 产生 100 个 元 素 长 的 序列 。 如 果 我 
们 需要 把 它 传 递 到 另 一 个 层 , 即 一 个 期 望 输入 的 维度 统一 的 层 , 那么 上 述 不 等 长 的 结果 就 会 出 现 问 
题 。 但 在 某 些 情况 下 ,这 种 不 等 长 的 序列 输入 也 是 可 以 接受 的 ,甚至 本 来 就 期 望 如 此 。 但 是 还 是 先 
回 到 我 们 这 里 的 分 类 器 ， 参 见 代 码 清单 8-10。 

































































代码 清单 8-10 ”添加 一 个 dropout 层 


>>> model.add (Dropout (.2) ) 


>>> model.add (Flatten ()) 
>>> model.add (Dense (1, activation='sigmoid')) 


我 们 要 求 上 述 简单 的 RNN 返回 完整 的 序列 ， 但 是 为 了 防止 过 拟 合 ， 我 们 添加 了 一 个 Dropout 
层 ， 在 每 个 输入 样本 上 随机 选择 输入 ， 使 这 些 输入 有 20% 的 概率 为 零 ， 最 后 再 添加 一 个 分 类 器 。 
在 这 种 情况 下 ， 我 们 只 有 一 个 类 : “Yes - Positive Sentiment - 1” 或 “No - Negative Sentiment - 0”， 
所 以 我 们 选择 只 有 单个 神经 元 (Dense (1) ) 的 层 并 使 用 sigmoid 激活 函数 。 但 是 该 稠密 层 需要 输 
人 一 个 由 个 元 素 组 成 的 扁平 的 问 量 ( 每 个 元 素 都 是 一 个 浮 点 数 )。 SimpleRNN 输出 的 是 一 个 400 
个 元 素 长 的 张 量 ， 张 量 中 的 每 个 元 素 都 是 50 个 元 素 长 。 但 是 前 馈 网 络 并 不 关心 元 素 的 顺序 而 只 关 
心 输 入 是 否 符合 网 络 的 需要 ， 所 以 我 们 使 用 Keras 提供 的 一 个 非常 方便 的 网 络 层 Flatten () 将 输 
入 从 400 x 50 的 张 量 扁平 化 为 一 个 长 度 为 20 000 个 元 素 的 向 量 。 这 就 是 我 们 要 传递 到 最 后 一 层 用 
来 做 分 类 的 向 量 。 实际 上 ,Flatten 层 是 一 个 映射 。 这 意味 着 误差 将 从 最 后 一 层 反 向 传播 回 RNN 
层 的 输出 ， 而 如 前 所 述 ， 这 些 反 向 传播 的 误差 之 后 将 在 输出 的 合适 点 随时 间 反 向 传播 。 

将 循环 神经 网 络 层 生成 的 “思想 向 量 ” 传 递 到 前 馈 网 络 中 ， 将 不 再 保留 我 们 努力 试图 想 要 包含 






















































































异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 








230 第 8 章 循环 神经 网 络 ( RNN ) 


的 输入 顺序 的 关系 。 但 重要 的 是 我 们 注意 到 ， 与 词 条 的 序列 相关 的 “学 习 ” 发 生 在 RNN 层 本 身 ; 通 
过 随时 间 反 向 传播 过 程 中 误差 的 聚合 将 这 种 关系 编码 进 了 网 络 中 ,并 将 其 表示 为 “思想 向 量 ”本 身 。 
我 们 基于 思想 向 量 作 出 的 决策 ， 通 过 分 类 带 ， 就 特定 的 分 类 问题 向 思想 向 量 的 “质量 ”提供 反馈 。 
我 们 可 以 “评估 ”我 们 的 思想 向 量 ， 并 以 其 他 方式 使 用 RNN 层 ， 更 多 内 容 将 在 下 一 章 讨 论 。( 大 家 
能 感觉 到 我 们 提 到 下 一 章 时 的 兴奋 吗 ? ) 坚持 下 去 ， 这 些 知 识 对 于 理解 下 一 部 分 是 至 关 重 要 的 。 


8.2 ”整合 各 个 部 分 


就 像 在 上 一 章 使 用 卷 积 神经 网 络 做 的 那样 来 编译 循环 神经 网 络 模型 。 

Keras 还 附带 了 一 些 工具 ,如 model .summary () ， 用 于 审 察 模型 内 部 情况 。 随 着 模型 变 得 
越 来 越 复 杂 ， 我 们 需要 经 常 使 用 model . summary () ， 否 则 在 调整 超 参 数 时 跟踪 模型 内 部 的 内 
容 的 变化 情况 会 变 得 非常 费力 。 如 果 我 们 将 模型 的 摘要 以 及 验证 的 测试 结果 记录 在 超 参数 调 优 日 
志 中 , 那 将 会 非常 有 趣 。 我 们 甚至 可 以 实现 大 部 分 工作 的 自动 化 , 将 一 些 枯燥 的 记录 工作 交 给 机 
器 来 完成 。 具 体 做 法 参见 代码 清单 8-11。 

































































代码 清单 8-11 编译 循环 神经 网 络 





>>> model.compile('rmsprop', 'binary crossentropy', metrics=['accuracy']) 
Using TensorFlow backend. 
>>> model .summary () 














Layer (type) Output Shape Param # 
St et tbe ~ ne dd 0 eo 
dropout 1 (Dropout) (None, 400, 50) 0 
flatten 1 (Flatten) (None, 20000) 0 

dense 1 (Dense) (None, 1) 20001 


Total paramss :237755120 
Trainable params: 37,551.0 
Non-trainable params: 0.0 





None 

这 里 我 们 暂停 一 下 ， 看 看 正在 处 理 的 参数 的 数量 。 这 个 循环 神经 网 络 相 对 较 小 ,但 是 请 注意 ， 
我 们 正在 学 习 37 551 个 参数 ! 这 对 20 000 个 训练 样本 (不 要 与 最 后 一 层 中 的 20 000 个 元 素 混淆 一 一 
这 只 是 巧合 ) 来 说 需要 更 新 的 权重 太 多 了 。 我 们 看 看 这 些 数字 ， 思 考 一 下 它们 具体 来 自 哪 里 。 

在 SimpleRNN 层 中 ， 我 们 需要 50 个 神经 元 。 每 个 神经 元 都 将 接收 输入 〈 并 对 每 个 输入 样 






































J 如 果 大 家 决定 主动 选择 超 参数 ， 请 不 要 过 于 坚持 网 格 搜 索 ， 随 机 搜索 要 有 效 得 多 。 如 果真 的 想 研 究 它 ， 
大 家 可 以 尝试 贝 叶 斯 优化 。 超 参数 优化 器 每 隔 儿 个 小 时 会 尝试 一 次 , 因此 大 家 不 能 仅仅 使 用 旧 的 超 参数 
调 优 模型 ( 但 愿 不 要 使 用 循环 网 络 ! ) 
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本 应 用 一 个 权重 )。 在 一 个 循环 神经 网 络 中 ， 每 个 时 刻 的 输入 都 是 一 个 词 条 。 在 本 例 中 ， 词 条 由 
词 向 量 表 示 ， 每 个 向 量 有 300 个 元 素 长 (300 维 )。 每 个 神经 元 需要 300 个 权重 : 
50 x 300 = 15 000 
每 个 神经 元 也 有 一 个 偏 置 项 ， 它 的 输入 值 总 是 1 (这 就 是 让 它 成 为 偏 置 的 原因 )， 所 以 可 训 
练 的 权重 : 









































15 000 + 50 ( 偏 置 权重 ) = 15 050 


第 一 层 第 一 个 时 刻 的 权重 数量 为 15 050。 现 在 这 50 个 神经 元 中 的 每 一 个 都 将 把 它 的 输出 输 
人 和 人 网络 的 下 一 时 刻 。 每 个 神经 元 接受 完整 的 输入 向 量 和 完整 的 输出 向 量 。 在 第 一 个 时 刻 ， 还 不 存 
在 来 自 输出 的 反馈 ， 所 以 它 的 初始 值 是 0 向 量 ， 它 的 长 度 与 输出 向 量 的 长 度 相同 。 

隐藏 层 中 的 每 个 神经 元 现在 都 有 每 个 词 条 租 入 维度 的 权重 , 即 300 个 权重 。 每 个 神经 元 也 有 
1 个 偏 置 。 在 前 一 个 时 刻 (或 第 一 个 1= 0 时 刻 的 0 ) 中 ,输出 结果 有 50 个 权重 。 这 50 个 权重 是 
循环 神经 网 络 中 的 关键 反馈 步骤 。 这 给 了 我 们 















































300+1+50=351 
351 x 50 个 神经 元 得 到 : 
351 x 50= 17 550 


17 550 个 需要 训练 的 参数 。 我 们 展开 这 个 网 络 400 次 (考虑 到 梯度 消失 相关 的 问题 ， 这 可 
能 太 多 了 ， 但 是 即使 这 样 ， 这 个 网 络 也 是 非常 有 效 的 )。 然 而， 这 17 550 个 参数 在 每 次 展开 时 都 
是 相同 的 ,并且 在 所 有 的 反 向 传播 计算 完毕 之 前 ,它们 都 是 相同 的 。 对 权重 的 更 新 发 生 在 前 向 传 
播 和 后 续 反 向 传播 序列 的 末尾 。 虽 然 我 们 给 反 向 传播 算法 增加 了 复杂 度 , 但 是 我 们 也 因此 逃 过 一 
劫 : 没有 去 训练 一 个 参数 甚至 超过 700 万 ( 17 550 x 400 ) 个 的 网 络 。 如 果 每 个 展开 的 网 络 都 有 
自己 的 权重 集 ， 那 么 情况 就 会 如 此 糟糕 。 

总 体 来 说 ,最 后 一 层 有 20 001 个 参数 需要 训练 ， 这 计算 起 来 相对 简单 。 在 Flatten () 层 之 后 ， 
输入 是 一 个 20 000 维 的 向 量 加 上 一 个 偏 置 输入 ， 因 为 在 输出 层 只 有 一 个 神经 元 ， 所 以 参数 的 总 数 是 
(20 000 个 输入 元 素 + 1 个 偏 置 单元 ) x 1 个 神经 元 = 20 001 个 参数 

这 些 数字 在 计算 时 间 上 可 能 会 有 一 点 误导 , 因为 随时 间 反 向 传播 算法 有 太 多 额外 的 步骤 (与 
卷 积 神经 网 络 或 标准 前 馈 网 络 相 比 )。 计 算 时 间 不 应 该 成 为 使 用 它 的 主要 壁垒 。 循 环 网 络 在 记忆 
能 力 方面 的 特殊 优势 是 进入 包括 NLP 或 所 有 其 他 序列 数据 的 更 大 世界 的 起 点 ， 我 们 将 在 下 一 章 
看 到 这 一 点 ， 但 是 现在 请 回 到 我 们 的 分 类 器 上 来 。 














































































































8.3 自我 学 习 


好 了 ， 现 在 是 时 候 训练 这 个 循环 网 络 了 ， 我 们 在 前 一 节 中 已 经 仔细 组 装 好 了 。 与 其 他 Keras 
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模型 一 样 ， 我 们 需要 向 . fit () 方 法 传递 数据 ,并 告诉 它 我 们 希望 训练 多 少 个 训练 周期 (epoch )， 
如 代码 清单 8-12 所 示 。 


代码 清单 8-12 ”训练 并 保存 模型 





>>> model.fit(x train, y train, 
batch size=batch size, 
epochs=epochs, 


validation data=(x test, y test)) 

Train on 20000 samples, validate on 5000 samples 

Epoch 1/2 

20000/20000 [==============================] - 215s - loss: 0.5723 - 
dCes ulL38 = yal losgss U0 = yal ac6s 0. 276 

Epoch 2/2 

20000/20000 [==============================] - 183s - loss: 0.4196 - 
acc: 0.8144 - val loss: 0.4763 = val acc: 0.7820 





>>> model structure = model.to json() 

>>> with open("simplernn modell.json", "w") as json file: 
Se json file.write (model structure) 

>>> model.save weights ("simplernn weights1l.h5") 

Model saved. 


结果 还 不 错 , 但 也 没有 什么 值得 大 书 特 书 的 东西 。 那 么 我 们 可 以 在 哪里 进行 改进 呢 ? 





8.4” 超 参数 


本 书 中 列 出 的 所 有 模型 都 可 以 根据 我 们 的 数据 和 样本 进行 调整 ， 它 们 都 有 各 自 的 优势 和 相应 
的 利弊 权衡 方式 。 寻 找 最 优 超 参 数 集 通常 是 一 个 棘手 的 问题 。 但 是 人 类 的 直觉 和 经 验 至 少 可 以 为 我 
们 提供 解决 问题 的 方法 。 让 我 们 看 最 后 一 个 例子 。 我 们 做 了 哪些 选择 ? 具体 做 法 参见 代码 清单 8-13。 


代码 清单 8-13 ”模型 参数 









































观察 数据 后 设置 的 任意 输 预 训练 的 Word2vec 
>>> maxlen = 400 入 序列 的 最 大 长 度 模型 维度 
>>> embedding dims = 300 
b Ri Sa = 32 
en ei ee 通过 ( 并 聚合 
本 误差 羊 本 序 多 
>>> num neurons 0 ”| 了 散居 的 复杂 度 全 和 





maxlen 参数 设置 可 能 是 这 串 参 数 中 最 大 的 问题 。 训 练 集 在 样本 长 度 上 变化 很 大 。 当 我 们 强 
制 将 长 度 不 超过 100 个 词 条 的 样本 加 长 到 400 个 词 条 , 那么 将 1000 个 词 条 的 样本 截断 到 400 个 词 
条 时 , 就 会 引入 大 量 的 噪声 。 改变 这 个 数字 对 训练 时 间 的 影响 比 改 变 模 型 中 的 其 他 任何 参数 的 影响 
都 要 大 , 单个 样本 的 长 度 决定 了 误差 需要 在 多 长 时 刻 内 反 向 传播 。 对 于 训练 循环 神经 网 络 , 设置 样 
本 长 度 不 是 严格 必要 的 。 我 们 可 以 简单 地 将 网 络 展开 为 样本 所 需 的 大 小 , 在 我 们 的 例子 中 这 种 做 法 
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是 必要 的 ， 因 为 我 们 把 本 身 就 是 一 个 序列 的 输出 传递 到 一 个 前 馈 层 ， 而 前 馈 层 需要 统一 输入 的 大 小 。 

embedding_dims 值 是 由 我 们 所 选择 的 Word2vec 模型 决定 的 ， 但 是 它 应 该 是 可 以 充分 表示 
数据 集 的 值 。 即 使 是 像 语料库 中 最 常见 的 50 个 词 条 的 独 热 编码 这 样 简单 的 向 量 ， 可 能 也 足以 获 
得 精确 的 预测 。 

与 所 有 网 络 一 样 , 增加 batch_size 可 以 加 速 训 练 , 因为 它 减少 了 需要 进行 反 向 传播 ( 计 
算 上 开销 较 大 的 部 分 ) 的 次 数 。 折 中 的 结果 是 ， 更 大 的 批量 增加 了 在 局 部 极 小 值 处 停顿 下 来 的 
可 能 。 

epochs 参数 易于 测试 和 调 优 ， 只 需 再 次 运行 训练 过 程 即 可 。 但 是 ， 如 果 我 们 必须 从 头 开 始 
尝试 每 个 新 的 epochs 参数 ， 那 么 这 需要 很 多 的 耐心 。Keras 模型 可 以 重新 启动 训练 ， 并 从 停止 
的 地 方 继续 ， 只 要 我 们 在 “停止 ”处 保存 了 模型 即 可 。 要 在 以 前 训练 过 的 模型 上 重新 启动 训练 ， 
请 重新 加 载 该 模型 和 数据 集 ， 并 对 数据 调用 model .fit () 。Keras 不 会 重新 初始 化 权重 ， 而 是 
像 从 未 停止 过 一 般 继续 训练 。 

另 一 种 对 epochs 参数 进行 调 优 的 方法 是 添加 一 个 名 为 EarlyStopping 的 Keras 回调 方 
法 。 通 过 向 模型 提供 此 方法 ， 除 非 传递 给 EarlyStopping 的 度量 指标 超过 了 在 回调 方法 中 用 
于 触发 的 某 个 靖 值 ， 否 则 模型 将 持续 训练 ， 直 到 达到 我 们 所 请 求 的 周期 数 为 止 。 一 个 常见 的 早 
停 度量 指标 是 连续 几 个 周期 验证 精确 率 提高 值 。 如 果 我 们 的 模型 没有 变 得 更 好 ,通常 就 意味 着 
是 时 候 “ 断 线 ”( 断 开 链接 ) 了 。 

这 个 度量 指标 允许 我 们 设置 它 并 忘记 它 的 存在 。 当 模型 达到 我 们 的 度量 指标 时 , 模型 将 停止 
训练 。 我 们 不 必 担 心 投 入 大 量 的 时 间 之 后 ， 才 发 现 模型 早 在 42 个 周期 之 前 就 开始 过 拟 合 我 们 的 
训练 数据 了 。 

num neurons 是 一 个 重要 的 参数 。 上 面 建议 随意 地 使 用 50 个 神经 元 。 现 在 我 们 用 100 个 
神经 元 而 不 是 50 个 来 进行 训练 和 测试 ， 整 个 过 程 如 代码 清单 8-14 和 代码 清单 8-15 所 示 。 
















































































代码 清单 8-14 ”建立 一 个 更 大 的 网 络 





>>> num neurons = 100 

>>> model = Sequential () 

>>> model.add (SimpleRNN( 

num neurons, return sequences=True, input shape= (maxlen,\ 
embedding dims))) 














el.add (Dropout (.2)) 
>>> model.add (Flatten ()) 
>>> model.add (Dense (1, activation='sigmoid')) 
>>> model.compile('rmsprop', 'binary crossentropy', metrics=['accuracy']) 
Using TensorFlow backend. 
>>> model .summary () 
Layer (type) Output Shape Param # 
simple rnn 1 (SimpleRNN) (None, 400, 100) 40100 
dropout 1 (Dropout) (None, 400, 100) 0 
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flatten 1 (Flatten) (None, 40000) 0 





dense 1 (Dense) (None, 1) 40001 


Total params: 80,101.0 
Trainable params: 80,101.0 
Non-trainable params: 0.0 





代码 清单 8-15 训练 更 大 的 网 络 





>>> model.fit(x train, y train, 
batch size=batch size, 
epochs=epochs, 
Pk validation data=(x test, y test)) 
Train on 20000 samples, validate on 5000 samples 


Epoch 1/2 

20000/20000 [==============================] - 287s - loss: 0.9063 - 
acc: 0.6529 = val loss: 0.5445 - val acc: 0.7486 

Epoch 2/2 

20000/20000 [==============================] - 240s - loss: 0.4760 - 


BC 0 T7951 = val- lo8S: 0.5165. ~ Val acc U7824 

>>> model structure = model.to json() 

>>> with open("simplernn model2.json", "w") as json file: 
json file.write (model structure) 

>>> model.save weights ("simplernn weights2.n5") 

Model saved. 


上 述 更 大 的 网 络 相 当 于 在 代码 清单 8-13 中 的 网 络 的 其 中 一 层 将 模型 的 复杂 度 提高 了 一 倍 ， 
其 验证 精确 率 为 78.24%, 仅 提高 了 0.04%。 这 个 微不足道 的 提高 会 让 我 们 觉得 模型 ( 对 于 这 个 网 
络 层 ) 对 数据 来 说 太 复 杂 了 。 这 个 网 络 层 可 能 有 些 太 宽 了 。 

下 面 是 将 num neurons 设置 为 25 时 的 情况 : 


20000/20000 [==============================] - 240s - loss: 0.5394 - 
acc: 0.8084 - val loss: 0.4490 - val acc: 0.7970 


这 个 结果 很 有 趣 。 当 我 们 把 中 间 的 尺寸 缩小 一 点 时 ,我 们 的 模型 稍微 好 了 一 点 ( 验证 精确 率 

















提高 了 1.5% ), 但 提高 得 还 不 是 很 显著 。 这 类 测试 可 能 需要 相当 长 的 时 间 来 培养 一 种 直觉 。 我 们 
可 能 会 发 现 , 随 着 训练 时 间 的 增加 , 我 们 将 无 法 享受 从 其 他 编码 任务 中 获得 的 即时 反馈 和 满足 感 ， 
点 








这 一 点 对 新 人 来 说 尤其 困难 。 有 时 一 次 改变 一 个 参数 会 掩盖 一 次 调整 两 个 参数 所 带 来 的 好 处 。 但 
是 ， 如 果 我 们 深 陷 组 合 导致 的 “兔子 洞 ” 而 无 法 自拔 ， 那 么 任务 的 复杂 度 会 达到 顶点 。 


提示 经 常 实 验 ， 并 记录 模型 对 我 们 的 操作 的 反应 。 这 种 亲身 实践 的 工作 会 为 我 们 通过 直觉 构建 模 
型 提供 最 快捷 的 途径 。 


如 果 我 们 觉得 模型 对 训练 数据 过 拟 合 , 但 又 无 法 找到 使 模型 更 简单 的 方法 , 那么 我 们 总 是 可 
以 尝试 增加 模型 中 的 Dropout () 函数 中 的 百分比 参数 。 这 是 一 把 可 以 降低 过 拟 合 风险 的 “大 锤 ”( 实 
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际 上 是 一 把 “ 散 弹 枪 ”)， 同 时 允许 模型 具备 匹配 数据 所 需 的 尽 可 能 高 的 复杂 度 。 如 果 我 们 把 dropout 
百分比 设置 在 50% 以 上 ,模型 就 会 开始 有 学 习 上 的 困难 ， 学 习 速 度 将 会 变 慢 ， 验 证 误差 将 会 增多 。 
但 是 对 许多 NLP 问题 来 说 ， 循 环 网 络 的 dropout 百分比 设置 为 20% ~ 50% 是 一 个 相当 安全 的 范围 。 














8.5 ”预测 


现在 我 们 已 经 有 了 一 个 经 过 训练 的 模型 ， 接 下 来 就 可 以 像 在 上 一 章 中 对 CNN 所 做 的 那样 进 
行 预 测 ， 预 测 过 程 如 代码 清单 8-16 所 示 。 


代码 清单 8-16 ”吐槽 糟糕 天 气 的 情感 分 析 





>>> sample 1 = "I hate that the dismal weather had me down for so long, when 
= will it break! Ugh, when does happiness return? The sun is blinding and 
= the puffy clouds are too thin. I can't wait for the weekend." 


>>> from keras.models import model from json 

>>> with open("simplernn modell.json", "“r") as json file: 
json string = json file.read() 

>>> model = model from json(json string) 

>>> model.load weights('simplernn weightsl.h5') 


>>> vec list = tokenize and vectorize([(1, sample 1)]) 一 一 一 一 一 一 一 一 
>>> test vec list = pad truncl(vec list, maxlen) 
>>> test vec = np.reshape (test vec list, (lenl(test vec list), maxlen,\ 
embedding dims)) 分 词 函数 返回 一 个 数据 的 列 
表 (这 里 长 度 为 1) 














>>> model.predict classes (test vec) 
array ([[0]], dtype=int32) 





为 元 组 的 第 一 个 元 素 传递 一 个 虚拟 值 ， 因 为 辅助 
函数 在 处 理 初 始 数据 的 时 候 需要 它 。 这 个 值 和 网 
络 无 关 ， 它 可 以 是 任何 值 

















结果 又 是 负 向 的 。 

我 们 又 有 了 一 个 可 以 添加 到 流水 线 中 的 工具 , 可 以 对 可 能 的 回复 以 及 用 户 可 能 输入 的 问题 或 
搜索 进行 分 类 。 但 是 为 什么 要 选择 循环 神经 网 络 呢 ? 简单 的 答案 是 : 不 一 定 要 选择 循环 神经 网 络 ， 
至 少 不 是 像 这 里 实现 的 SimpleRNN 一 样 。 与 前 馈 网 络 或 卷 积 神经 网 络 相 比 , 它 训练 和 传递 新 样 
本 的 成 本 相对 较 高 。 至 少 在 本 例 中 ， 结 果 并 没有 明显 改善 ， 其 至 根本 没有 改善 。 

那么 为 什么 要 使 用 RNN 呢 ? 记 住 出 现 过 的 输入 位 (bit ) 的 概念 在 NLP 中 是 非常 重要 的 。 对 
循环 神经 网 络 来 说 ， 梯 度 消失 通常 是 一 个 难以 克服 的 问题 ， 特 别 是 在 一 个 有 如 此 多 时 刻 的 样本 中 。 
下 一 章 我 们 将 开始 研究 记忆 的 其 他 可 供 选 择 的 方法 ， 正 如 Andrej Karpathy 所 指出 的 ， 这 些 方法 
“ 毫 无 理由 地 有 效 ””。 

下 面 几 节 将 介绍 一 些 关于 循环 神经 网 络 的 其 他 内 容 , 这 些 内 容 在 示例 中 没有 提 到 , 但 仍然 很 重要 。 


























个 Karpathy, Andrej, The Unreasonable Effectiveness of Recurrent Neural Networks. 
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8.5.1 有 状态 性 


有 时 候 , 我 们 想 要 记 住 从 一 个 输入 样本 到 下 一 个 输入 样本 的 信息 ,而 不 仅仅 是 单个 样本 中 的 
一 个 输入 词 条 到 下 一 个 输入 词 条 的 一 次 时 刻 ( 词 条 )。 在 训练 结束 时 , 这 些 信息 会 发 生 什么 变化 ? 
除了 通过 反 向 传播 被 编码 在 权重 中 的 内 容 ， 最 终 的 输出 对 网 络 没有 影响 ， 下 一 个 输入 将 重新 开始 。 
Keras 在 基本 RNN 层 ( 因此 也 在 SimpleRNN 中 ) 提供 了 一 个 关键 字 参 数 stateful, 它 默认 为 
False， 如 果 在 模型 中 添加 SimpleRNN 层 时 将 其 设置 为 True， 则 最 后 一 个 样本 的 最 后 一 个 输 
出 将 在 下 一 个 时 刻 与 第 一 个 词 条 输入 一 起 传递 给 它 自 己 ， 就 像 在 样本 的 中 间 一 样 。 

当 我 们 想 要 对 一 个 大 型 的 已 被 分 割 成 段落 或 句子 进行 处 理 的 文档 建 模 时 , 将 stateful 设 
置 为 True 不 失 为 一 个 好 主意 。 我 们 甚至 可 以 使 用 它 来 对 相关 文档 的 整个 语料库 的 含义 建 模 。 但 
是 ,我 们 不 希望 在 没有 重 置 样本 间 模 型 状态 的 情况 下 ， 在 不 相关 的 文档 或 段落 上 训练 有 状态 的 
RNN。 同样 ， 如果 我 们 经 常 打 乱 文本 样本 , 则 一 个 样本 的 最 后 几 个 词 条 与 下 一 个 样本 的 前 几 个 词 
条 没有 任何 关系 。 因 此 ， 对 于 打 乱 的 文本 ， 我 们 需要 确保 stateful 参数 被 设置 为 False， 
为 样本 的 顺序 不 能 帮助 模型 找到 合适 的 匹配 关系 。 

如 果 传 递 给 fit 方法 一 个 batch_size 参数 ， 则 模型 的 有 状态 性 ( statefulness ) 将 在 一 批 
中 保存 每 个 样本 的 输出 。 然 后 前 一 批 中 第 一 个 样本 的 输出 将 会 输入 给 下 一 批 中 的 第 一 个 样本 , 前 
一 批 中 第 二 个 样本 的 输出 将 会 输入 给 下 一 批 的 第 二 个 样本 ,以 此 类 推 。 如 果 我 们 试图 基于 整体 的 
某 一 小 部 分 对 较 大 的 单个 语料库 进行 建 模 ， 那 么 关注 数据 集 的 顺序 就 变 得 非常 重要 。 
























































8.5.2 ”双向 RNN 


到 目前 为 止 , 我 们 已 经 讨论 了 词 和 之 前 出 现 过 的 词 之 间 的 关系 。 但 是 ,如 果 词 之 间 的 依存 关 
系 翻 转 能 处 理 吗 ? 





They wanted to pet the dog whose fur was brown. 


( 他 们 想 抚摸 那 只 棕色 毛皮 的 狗 。) 


当 我 们 读 到 词 条 “fur” 时 , 已 经 遇 到 了 “dog”, 并 且 对 它 有 所 了 解 。 但 是 这 个 句子 也 包含 了 
“ 狗 有 毛皮 以 及 狗 的 毛皮 是 棕色 的 ”这 一 信息 。 这 些 信息 与 之 前 的 动作 “pet”( 抚摸 ) 和 “they” 
想 要 抚摸 的 事实 有 关 。 也 许 “they” 只 喜欢 抚摸 柔软 的 、 毛 昔 划 的 、 棕 色 的 东西 ， 而 不 喜欢 抚摸 
多 刺 的 绿色 的 东西 ， 如 仙人 掌 。 

人 类 阅读 句子 的 方向 是 单 向 的 , 但 当 接收 到 新 信息 时 ， 人 类 的 大 脑 能 够 迅速 回 到 文本 前 面 的 
内 容 。 人 类 可 以 处 理 那些 没有 按照 最 佳 顺 序 呈 现 的 信息 。 如 果 我 们 能 允许 模型 在 输入 之 间 来 回 切 
换 ， 那 就 太 好 了 。 这 就 是 双向 循环 神经 网 络 的 用 武之 地 。Keras 添加 了 一 个 层 包 装 咒 ， 它 可 以 在 
必要 时 自动 翻转 输入 和 输出 ， 为 我 们 自动 组 装 一 个 双向 RNN。 有 具体 做 法 参见 代码 清单 8-17。 


























代码 清单 8-17 ”创建 一 个 双向 循环 神经 网 络 





>>> from keras.models import Sequential 
>>> from keras.layers import SimpleRNN 
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>>> from keras.layers.wrappers import Bidirectional 


>>> num neurons = 10 
>>> maxlen = 100 
>>> embedding dims = 300 


>>> model = Sequential () 

>>> model.add (Bidirectional (SimpleRNN( 
num neurons, return sequences=True),\ 
input_ shape= (maxlen, embedding dims))) 


其 基本 思想 是 将 两 个 RNN 并 排 在 一 起 ， 将 输入 像 普 通 单 向 RNN 的 输入 一 样 传递 到 其 中 一 
个 RNN 中 ,并 将 同样 的 输入 从 反 向 传递 到 另 一 个 RNN 中 (如 图 8-13 所 示 )。 然 后 ， 在 每 个 时 
刻 将 这 两 个 网 络 的 输出 拼接 到 一 起 作为 男 一 个 网 络 中 对 应 ( 相同 输入 词 条 ) 时 刻 的 输入 。 我 们 
获取 输入 最 后 一 个 时 刻 的 输出 后 , 将 其 与 在 反 向 网 络 的 第 一 个 时 刻 的 由 相同 输入 词 条 生成 的 输 
出 拼接 起 来 。 




















随时 间 
| 反 向 传播 误差 


随时 间 
| 反 向 传播 误差 
(前 向 ? ) 





图 8-13 ”双向 循环 神经 网 络 





提示 “Keras 也 有 一 个 go_ backwards 关键 字 参 数 。 如 果 将 这 个 参数 设置 为 True，Keras 会 自动 
翻转 输入 序列 并 将 它们 以 相反 的 顺序 输入 网 络 中 。 这 是 双向 网 络 层 的 下 半 部 分 。 

如 果 没 有 使 用 双向 包装 器 ， 这 个 关键 字 会 很 有 用 ， 因 为 循环 神经 网 络 ( 由 于 梯度 消失 问题 ) 在 样本 
的 末尾 比 在 起 始 时 更 容易 接受 数据 。 如 果 我 们 在 样本 的 末尾 填充 了 <PRD> 词 条 ， 那 么 所 有 好 的 、 丰 
富 的 内 容 都 将 被 深 埋 在 输入 循环 中 。 而 go_backwards 可 以 快速 地 解决 这 个 问题 。 


有 了 这 些 工具 , 我 们 不 仅 可 以 对 文本 进行 预测 和 分 类 , 还 可 以 对 语言 本 身 及 其 使 用 方式 进行 
建 模 。 有 了 这 种 对 算法 的 更 深层 次 的 理解 ,我 们 就 可 以 生成 全 新 的 语句 ， 而 不 仅仅 是 模仿 模型 之 
前 见 过 的 文本 了 ! 
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8.5.3 编码 向 量 





在 稠密 层 ( dense layer ) 的 前 面 有 一 个 向 量 ， 它 的 形状 〈 神 经 元 数量 xl ) 来 自给 定 输入 序列 
的 循环 层 的 最 后 一 个 时 刻 。 这 个 向 量 与 前 一 章 卷 积 神经 网 络 中 的 思想 向 量 是 同等 的 概念 。 它 是 词 
条 序列 的 编码 表示 。 诚 然 ， 它 只 能 够 对 与 网 络 所 训练 的 标签 相关 的 序列 的 思想 进行 编码 ， 但 就 
NLP 领域 而 言 ， 这 是 一 个 惊人 的 成 就 ， 预 示 着 在 计算 上 能 将 更 高 阶 的 概念 编码 成 向 量 。 


8.6 小结 









































在 自然 语言 序列 ( 词 或 字符 ) 中 ,历史 的 内 容 对 于 模型 理解 序列 非常 重要 。 

在 时 间 维 度 ( 词 条 ) 上 , 分 解 自然 语言 语句 可 以 帮助 我 们 的 机 器 加 深 对 自然 语言 的 理解 。 
我 们 可 以 随时 间 〈 词 条 ) 反 向 传播 误差 ,包括 在 深度 学 习 网 络 的 各 层 中 。 

RNN 作为 深度 神经 网 络 ， 其 梯度 变化 是 非常 大 的 ， 可 能 会 造成 梯度 消失 或 者 梯度 爆炸 。 
在 循环 神经 网 络 被 应 用 于 语言 建 模 之 前 ， 为 自然 语言 字符 序列 有 效 地 建 模 都 是 不 可 能 完 
成 的 任务 。 

国 对 于 给 定 的 样本 ，RNN 的 权重 会 随 着 时 间 ( 词 条 ) 的 推移 进行 聚合 更 新 。 

加 ”我们 可 以 使 用 不 同 的 方法 来 检查 循环 神经 网 络 的 输出 。 

加 我 们 可 以 通过 将 词 条 序列 同时 传递 给 前 向 、 反 向 RNN, 来 对 一 篇 文档 中 的 自然 语言 序列 
进行 建 模 。 
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本 章 主 要 内 容 

图 为 循环 神经 网 络 增加 更 深层 次 的 记忆 
图 神经 网 络 中 的 门 控 信 息 

图 文本 分 类 和 生成 

图 对 语言 模式 建 模 






































尽管 在 序列 数据 中 ,循环 神经 网 络 为 对 各 种 语言 关系 建 模 ( 因此 也 可 能 是 因果 关系 ) 提供 了 
诸多 便利 ,但 是 存在 一 个 主要 缺陷 : 当 传 递 了 两 个 词 条 后 ,前 面 词 条 几乎 完全 失去 了 它 的 作用 。 
第 一 个 节点 对 第 三 个 节点 (第 一 个 时 刻 再 过 两 个 时 刻 后 ) 的 所 有 作用 都 将 被 中 间 时 刻 引 入 的 新 数 
据 彻 底 抹 平 。 这 对 网 络 的 基本 结构 很 重要 , 但 却 和 人 类 语言 中 的 常见 情景 相 违 背 , 实际 中 即使 词 
条 在 句子 中 相隔 很 远 ， 也 可 能 是 深度 关联 的 。 

我 们 看 看 下 面 这 个 例子 : 

The young woman went to the movies with her friends. 
( 这 个 年 轻 的 女人 和 她 的 朋友 去 看 电影 )。 

句子 中 主语 “woman” 紧 跟着 它 的 主要 动词 “went””。 我 们 在 前 几 童 中 了 解 到 ， 卷 积 网 络 
和 循环 网 络 都 可 以 很 容易 地 学 习 这 种 关系 。 

但 在 另 一 个 类 似 的 句子 中 : 

The young woman, having found a free ticket on the eround, went to the movies. 
( 那 位 年 轻 女士 ， 在 地 上 找到 一 张 免费 票 后 ， 就 去 看 电影 了 )。 

名 词 和 动词 在 序列 中 不 再 只 相隔 一 个 时 刻 。 在 这 个 新 的 、 更 长 的 句子 中 , 循环 神经 网 络 很 难 
理解 主语 “woman” 和 主动 词 “went” 之 间 的 关系 。 对 于 这 个 新 句子 ,循环 网 络 会 过 于 强调 动词 
“having” 和 主语 “woman” 之 间 的 联系 ， 而 低估 主语 与 谓语 主动 词 “went” 之 间 的 联系 。 也 就 是 












































@ Christopher Olah 解释 了 出 现 了 这 种 现象 的 原因 。 
@ “went” 是 句子 中 的 谓语 ( 主动 词 )。 
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说 , 在 这 里 我 们 失去 了 句子 的 主语 和 谓语 动词 之 间 的 关联 性 。 在 循环 网 络 中 ， 当 我 们 遍历 每 个 名 
子 时 ， 权 重 会 衰减 得 过 快 。 

这 里 面临 的 挑战 是 建立 一 个 网 络 ， 其 在 上 述 两 个 句子 中 都 能 “领悟 ” 到 相同 的 核心 思想 。 我 
们 需要 的 是 能 够 在 整个 输入 序列 中 记 住 过 去 的 方法 。 长 短期 记忆 ( long short-term memory, LSTM ) 
则 正 是 我 们 所 需要 的 一 类 方法 。 

长 短期 记忆 网 络 的 现代 版 本 通常 使 用 一 种 特殊 的 神经 网 络 单元 ， 称 为 门 控 循 环 单元 ( gated 
recurrent unit，GRU )。 门 控 循 环 单元 可 以 有 效 地 保持 长 、 短 期 记忆 , 使 LSTM 能 够 更 精确 地 处 
理 长 句子 或 文档 。 事实 上 , LSTM 工作 得 非常 好 , 它 在 几乎 所 有 涉及 时 间 序 列 、 离 散 序列 和 NLP 
领域 问题 的 应 用 中 都 取代 了 循环 神经 网 络 。 


9.1 长 短期 记忆 ( LSTM ) 


LSTM 对 于 循环 网 络 的 每 一 层 都 引入 了 状态 (state ) 的 概念 。 状 态 作 为 网 络 的 记忆 ( memory )。 我 
们 可 以 把 上 述 过 程 看 成 是 在 面向 对 象 编程 中 为 类 添加 属性 。 每 个 训练 样本 都 会 更 新 记忆 状态 的 属性 。 

在 LSTM 中 , 管理 存储 在 状态 (记忆 ) 中 信息 的 规则 就 是 经 过 训练 的 神经 网 络 本 身 一 一 这 就 
是 神奇 之 处 。 它们 可 以 通过 训练 来 学 习 要 记 住 什么 , 同时 循环 网 络 的 其 余部 分 会 学 习 预 测 目 标 标 
签 ! 随 着 记忆 和 状态 的 引入 ,我 们 可 以 开始 学 习 依 se 
赖 关 系 ， 这 些 依赖 关系 不 仅 可 以 扩展 到 一 两 个 词 
条 ， 甚 至 还 可 以 扩展 到 每 个 数据 样本 的 整体 。 有 了 
这 些 长 期 依赖 关系 ， 我们 就 可 以 开始 考虑 超越 文字 
本 身 的 关于 语言 更 深层 次 的 东西 。 

有 了 LSTM， 模 型 可 以 开始 学 习 人 类 习以为常 
和 在 潜意识 层面 上 人 处 理 的 语言 模式 。 有 了 这 些 模 
式 , 我 们 不 仅 可 以 更 精确 地 预测 样本 类 别 , 还 可 以 开 


始 使 用 这 些 语言 模式 生成 新 的 文本 。 尽 管 这 个 领域 的 Ee 
技术 水 平 还 远 远 谈 不 上 完美 , 但 是 我 们 将 看 到 的 结 加 


果 ， 即 使 是 在 本 书 的 小 例子 中 ， 也 是 令 人 惊叹 的 。 
那么 , 它 到 底 是 如 何 工作 的 呢 ? 如 图 9-1 所 示 。 
就 像 在 一 般 的 循环 网 络 中 一 样 ， 记 忆 状 态 受 输 

入 的 影响 ， 同 时 也 影响 层 的 输出 。 但 是 ， 这 种 记忆 

状态 在 时 间 序 列 ( 句子 或 文档 ) 的 所 有 时 刻 会 持续 存 图 9-1 LSTM 网 络 和 它 的 记忆 










































































正常 循环 


















































@ Hochreiter 和 Schmidhuber 在 1997 年 发 表 了 第 一 篇 关于 LSTM 的 论文 “Long Short-Term Memory”( 长 短 
期 记忆 )。 

@ Kyunghyun Cho 等 人 在 2014 年 发 表 的 “Learning Phrase Representations using RNN Encoder-Decoder for 
Statistical Machine Translation”( 使 用 RNN 编码 -解码 器 来 学 习 统 计 机 器 翻译 的 短语 表示 )。 

@ Christopher Olah 的 博客 文章 解释 了 原因 。 
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在 。 因此 ,每 个 输入 都 会 对 记忆 状态 和 隐藏 层 的 输出 产生 影响 。 记 忆 状 态 的 神奇 之 处 在 于 ， 它 在 
学 习 (使 用 标准 的 反 向 传播 ) 需要 记 住 的 信息 的 同时 ， 还 学 习 输 出 信息 ! 这 看 起 来 像 什么 呢 ? 
首先 ， 我 们 展开 一 个 标准 的 循环 神经 网 络 ， 并 添加 记忆 单元 。 图 9-2 看 起 来 与 一 般 的 循环 神 
经 网 络 相 似 。 但 是 , 除了 向 下 一 个 时 刻 提供 激活 函数 的 输出 ,这 里 还 添加 了 一 个 也 经 过 网 络 各 时 
刻 的 记忆 状态 。 在 每 个 时 刻 的 迭代 中 ,隐藏 层 循环 单元 都 可 以 访问 该 记忆 单元 。 这 个 记忆 单元 的 
添加 ， 以 及 与 其 交互 的 机 制 ， 使 它 与 传统 的 神经 网 络 层 有 很 大 的 不 同 。 然 而 ， 大 家 可 能 想 知道 ， 


























是 否 可 能 设计 一 组 传统 的 循环 神经 网 络 层 ( 计算 图 ) 来 完成 LSTM 层 中 存在 的 所 有 计算 。 事 实 上 ， 
LSTM 层 只 是 一 个 极为 特例 化 的 循环 神经 网 络 。 


{=0 i=1 {=2 











“记忆 ”状态 












图 9-2 ”展开 的 LSTM 网 络 和 它 的 记忆 











提示 在 很 多 文献 中 ,图 9-2 的 “记忆 状态 ” 块 被 称 为 LSTM 元 胞 ( cell )， 而 不 是 LSTM 神经 元 ， 
因为 它 包 含 两 个 额外 的 神经 元 或 门 控 单元 ， 就 像 一 个 硅 计 算 机 记忆 细胞 "一 样 。 当 一 个 LSTM 元 胞 
与 一 个 sigmoid 激活 函数 相 结合 ， 向 下 一 个 LSTM 元 胞 输出 一 个 值 时 ， 这 个 包含 多 个 相互 作用 元 素 
的 结构 被 称 为 LSTM 单元 。 多 个 LSTM 单元 组 合 形 成 一 个 LSTM 层 。 图 9-2 中 穿 过 展开 循环 神经 
元 的 水 平 线 表示 保存 的 记忆 或 状态 。 当 词 条 序列 被 传递 到 一 个 多 单元 LSTM 层 时 , 它 将 变 成 一 个 具 
有 每 个 LSTM 元 胞 维 数 的 向 量 。 
我 们 仔细 看 看 这 其 中 的 一 个 元 胞 。 现在 , 每 个 元 胞 不 再 是 一 系列 输入 权重 和 应 用 于 这 些 权 重 
的 激活 函数 ， 而 是 稍微 复杂 的 结构 。 与 前 面 一 样 ， 到 每 一 层 ( 或 元 胞 ) 的 输入 是 当前 时 刻 输入 和 
前 一 个 时 刻 输出 的 组 合 。 当 信息 流入 这 个 元 胞 而 不 是 权重 向 量 时 , 它 现在 需 经 过 3 个 门 : 遗忘 门 、 
























































@ 最 近 一 个 关于 LSTM 的 很 好 示例 是 Alex Graves 在 2012 年 的 论文 “Supervised Sequence Labelling with 
Rucurrent Neural Networks” 。 
@ 参见 维基 百科 文章 “Memory cell”。 
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输入 /候选 门 和 输出 门 ( 如 图 9-3 所 示 )。 





1 一 1 时 刻 
的 输出 


1 时 刻 的 输入 












本 1 时 刻 











图 9-3 t 时 刻 的 LSTM 层 





这 些 门 中 的 每 一 个 都 由 一 个 前 馈 网 络 层 和 一 个 激活 函数 构成 , 其 中 的 前 馈 网 络 包 含 将 要 学 习 
的 一 系列 权重 。 从 技术 上 讲 ， 其 中 一 个 门 由 两 个 前 向 路 径 组 成 ,因此 在 这 个 层 中 将 有 4 组 权重 需 
要 学 习 。 权重 和 激活 函数 的 则 在 控制 信息 以 不 同 数量 流 经 元 胞 , 同时 也 控制 信息 到 达 元 胞 状态 (或 
记忆 ) 的 所 有 路 径 。 

在 深入 讨论 这 些 问题 之 前 , 我 们 先 来 看 看 Python 代码 , 使 用 上 一 章 的 示例 , 并 将 SimpleRNN 
层 替换 为 LSTM。 我 们 可 以 使 用 与 上 一 章 处 理 (x train 、y train 、x test 和 y _test ) 的 方法 相同 的 


向 量化 、 














填充 /截断 方法 来 处 理 数据 。 具 体 做 法 参见 代码 清单 9-1。 


代码 清单 9-1 Keras 中 的 LSTM 层 











>>> maxlen = 400 

>>> batch size = 32 

>>> embedding dims = 300 

>>> epochs = 2 

>>> from keras.models import Sequential 

>>> from keras.layers import Dense, Dropout, Flatten, LSTM 

>>> num neurons = 50 

>>> model = Sequential () 

>>> model.add (LSTM (num neurons, return sequences=True, 

RS input_shape= (maxlen, embedding qims) ) ) 

>>> model.add (Dropout (.2) ) 

>>> model.add (Flatten ()) 

>>> model.add (Dense (1, activation='sigmoid')) 

>>> model.compile('rmsprop', ‘'binary crossentropy', metrics=['accuracy']) 
>>> print (model.summary ()) 

Layer (type) Output Shape Param # 
lstm 1 (LSTM) (None, 400, 50) 70200 
dropout 1 (Dropout) (None, 400, 50) 0 
flatten 1 (Flatten) (None, 20000) 0 
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dense 1 (Dense) (None, 1) 20001 


Total params: 90,201.0 
Trainable params: 90,201.0 
Non-trainable params: 0.0 


与 上 一 章 的 代码 相 比 ， 只 有 导入 库 那 一 部 分 和 其 中 一 行 Keras 代码 发 生 了 变化 ， 但 在 代码 的 表面 
下 的 许多 事情 正在 悄然 发 生 。 从 上 面 给 出 的 模型 摘要 中 , 我 们 可 以 看 到 , 对 于 相同 数量 的 神经 元 ( 50 )， 
我 们 需要 训练 的 参数 比 上 一 章 的 SimpleRNN 中 的 要 多 得 多 。 回 想 一 下 ， 简 单 的 RNN 有 以 下 权重 : 

加 300( 对 应 于 输入 向 量 的 每 个 元 素 ); 

四 1( 对 应 于 偏 置 项 ); 

国 50( 对 应 于 前 一 个 时 刻 的 每 个 神经 元 的 输出 )。 

每 个 神经 元 总 共有 351 个 权重 : 











351 x 50= 17 550 
元 胞 有 3 个 门 (总 共 4 个 神经 元 ): 
17 550 x 4= 70 200 
但 什么 是 记忆 呢 ? 记忆 将 由 一 个 向 量 来 表示 ， 这 个 向 量 与 元 胞 中 神经 元 的 元 素数 量 相 同 。 这 里 
的 示例 相对 简单 ， 只 有 50 个 神经 元 ， 因 此 记忆 单元 将 是 一 个 由 50 个 元 素 长 的 浮 点 数 (float ) 向 量 。 
那么 这 些 门 又 是 什么 ?我 们 跟随 第 一 个 样本 ， 了 人 解 它 在 网 络 中 的 运行 情况 ( 如 图 9-4 所 示 )。 


1 一 1 时 刻 
的 输 
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1 时 刻 
的 输入 


输出 给 
夺 1 时 刻 


2 























图 9-4 LSTM 层 的 输入 

通过 元 胞 的 “旅程 ”不 是 一 条 单一 的 道路 ， 它 有 多 个 分 支 ， 我 们 将 跟随 每 个 分 支 一 段 时 间 ， 
然后 后 退 、 前 进 、 进 入 另 一 分 支 ， 最 后 再 回 到 一 起 ， 以 得 出 元 胞 输出 的 最 终结 果 。 

我 们 从 第 一 个 样本 中 获取 第 一 个 词 条 ,并 将 其 300 个 元 素 的 向 量 表示 传递 到 第 一 个 LSTM 元 
胞 。 在 进入 元 胞 的 过 程 中 ， 数 据 的 向 量 表 示 与 前 一 个 时 刻 的 向 量 输出 (第 一 个 时 刻 的 向 量 为 0) 
拼接 起 来 。 在 本 例 中 , 我 们 将 得 到 一 个 长 度 为 300 + 50 个 元 素 的 向 量 。 有 时 我 们 会 看 到 向 量 后 面 
加 一 个 代表 偏 置 项 的 1。 因 为 偏 置 项 在 传递 到 激活 函数 之 前 总 是 将 其 相关 权重 乘 以 值 1， 所 以 有 
时 会 从 输入 向 量 表 示 中 省 略 该 输入 ， 以 使 图 更 易于 理解 。 
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在 道路 的 第 一 个 分 贫 处 , 我 们 将 拼接 起 来 的 输入 向 量 的 副本 传递 到 似乎 会 预示 厄运 的 遗忘 门 
( 如 图 9-5 所 示 )。 遗 忘 门 的 目标 是 ,根据 给 定 的 输入 ,学 习 要 遗忘 元 胞 的 多 少 记 忆 。 呈 ， 稍 等 一 
下 ， 我 们 刚 把 这 个 记忆 输入 进去 ， 你 要 做 的 第 一 件 事 却 是 遗忘 它 ? 简直 难以 置信 。 




















二 1 时 刻 的 输出 
前 一 个 时 刻 
50 个 元 素 的 向 量 输出 


拼接 起 来 的 输入 
350 个 元 素 的 向 量 



















< 一 











二 
t 时 刻 的 输入 个 神经 元 351 个 权重 
1 个 词 条 ( 词 或 者 字符 ) 人 


由 300 个 元 素 的 向 量 表示 











图 9-5 ”第 一 站 一 一 遗忘 门 

想 要 遗忘 和 想 要 记 住 的 想法 一 样 重要 。 作 为 一 名 人 类 读者 ， 当 我 们 从 文本 中 获取 某 些 信息 时 ， 
例如 名 词 是 单数 还 是 复数 , 我 们 想 要 保留 这 些 信息 ,以 便 在 之 后 的 句子 中 能 识别 出 与 之 匹配 的 正 
确 的 动词 词 形 变化 或 形容 词 形 式 。 在 罗曼 斯 语系 (romance language ) 中 ， 我 们 也 必须 识别 一 个 
名 词 的 性 别 , 然后 在 句子 中 使 用 它 。 但 是 输入 序列 会 经 常 地 从 一 个 名 词 转换 到 男 一 个 名 词 ， 因 为 
输入 序列 可 以 由 多 个 短语 、 句 子 甚至 文档 组 成 。 由 于 新 的 思想 是 在 后 面 的 语句 中 表达 的 ,名词 是 
复数 的 事实 可 能 与 后 面 不 相关 的 文本 没有 任何 关系 。 





























A thinker sees his own actions as experiments and questions—as attempts to find out 
Something. Success and failure are for him answers above all. 

(一 个 思想 家 认为 自己 的 行为 只 是 实验 和 问题 一 一 只 是 用 来 尝试 发 现 一 些 事物 。 成 
功 和 失败 对 他 而 言 只 是 那些 行为 的 答案 。) 





Friedrich Nietzsche 


在 这 名 引文 中 ,动词 “see” 与 名 词 “thinker” 搭 配 。 我 们 遇 到 的 下 一 个 主动 动词 是 第 二 个 句 
子 中 的 “to be”。 这 时 “be” 动 词 变 形成 “are”， 与 “Success and failure” 匹 配 。 如 果 把 它 和 句子 
中 的 第 一 个 名 词 “thinker” 搭 配 起 来 ， 就 会 使 用 错误 的 动词 形式 “is"。 因 此 ，LSTM 不 仅 必须 对 
序列 中 的 长 期 依赖 关系 建 模 , 而 且 同 样 重要 的 是 , 还 必须 随 着 新 依赖 关系 的 出 现 而 忘记 长 期 依赖 
关系 ， 这 就 是 遗忘 门 的 作用 ， 在 我 们 的 记忆 元 胞 中 为 相关 的 记忆 腾 出 空间 。 

网 络 并 不 基于 这 类 显 式 表示 进行 工作 。 我 们 的 网 络 试图 找到 一 组 权重 , 用 它们 乘 以 来 自 词 条 
序列 的 输入 ， 以 便 以 最 小 化 误差 的 方式 更 新 记忆 元 胞 和 输出 。 令 人 惊讶 的 是 ， 它 们 竟然 能 工作 ， 
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而 且 它 们 确实 工作 得 很 好 ,但 是 在 惊叹 之 余 ， 我 们 还 是 回 到 遗忘 门 。 

遗忘 门 本 身 ( 如 图 9-6 所 示 ) 只 是 一 个 前 馈 网 络 。 它 由 n 个 神经 元 组 成 ， 每 个 神经 元 的 权重 个 数 
为 m+n+1。 所 以 在 本 示例 中 ,遗忘 门 有 50 个 神经 元 ， 每 个 神经 元 有 351 (300+ 50+1) 个 权重 。 
为 我 们 希望 遗忘 门 中 的 每 个 神经 元 的 输出 值 在 0 到 1 之 间 ， 所 以 遗忘 门 的 激活 函数 是 sigmoid 函数 。 
十 1 时 刻 的 输出 


前 一 个 时 刻 
50 个 元 素 的 向 量 输 出 



























拼接 起 来 的 输入 
350 个 元 素 的 向 量 





遗忘 门 












t 时 多 入 
eh 每 个 神经 元 351 个 权重 候选 门 输出 给 
( 词 或 者 字符 ) (其 中 1 个 代表 偏 置 项 ) ， C 个 元 素 ) 全 1 时 刻 
由 300 个 元 素 的 向 量 表示 = SD 

















图 9-6 遗忘 门 














然后 ， 遗 忘 门 的 输出 向 量 是 某 种 掩 码 (多孔 掩 码 )， 它 会 遗忘 记忆 向 量 的 某 些 元 素 。 当 遗忘 
门 输出 值 接近 于 1 时 ， 对 于 该 时 刻 ， 关 联 元 素 中 更 多 的 记忆 知识 会 被 保留 ， 它 越 接近 于 0， 遗 忘 
的 记忆 知识 就 越 多 ( 如 图 9-7 所 示 )。 




















1-1 时 刻 的 记忆 向 量 ”XX ” {时 刻 的 遗忘 门 掩 码 三 新 的 记忆 向 量 
(逐个 元 素 ) 
03 x 99 = 
42 x 00 = 
:4 x .01 二 
(一 共 50 个 元 素 ) (一 共 50 个 元 素 ) (一 共 50 个 元 素 ) 
1-1 时 刻 的 记忆 向 量 1 时 刻 的 遗忘 门 掩 码 新 的 记忆 向 量 








图 9-7 ”遗忘 门 的 应 用 
通过 检查 核对 ， 上 述 模型 的 遗忘 门 能 够 主动 忘记 一 些 东西 。 我 们 最 好 学 会 记 住 一 些 新 的 








a 
营 
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否则 它 很 快 就 会 被 遗忘 的 。 就 像 在 “遗忘 门 ” 中 一 样 ， 我 们 将 使 用 一 个 小 网 络 ， 根 据 两 件 事 来 学 
习 需 要 加 入 多 少 记 忆 : 到 目前 为 止 的 输入 和 上 一 个 时 刻 的 输出 。 这 是 我 们 在 下 一 个 分 支 进 入 的 门 
中 发 生 的 事情 : 候选 门 。 

候选 门 内 部 有 两 个 独立 的 神经 元 ， 它 们 做 两 件 事 : 

(1 ) 决定 哪些 输入 向 量 元 素 值 得 记 住 ( 类 似 于 遗忘 门 中 的 掩 码 ); 

(2 ) 将 记 住 的 输入 元 素 按 规定 路 线 放置 到 正确 的 记忆 “ 覃 "。 

候选 门 的 第 一 部 分 是 一 个 具有 sigmoid 激活 函数 的 神经 元 ， 其 目标 是 学 习 要 更 新 记忆 向 量 的 
哪些 输入 值 。 这 个 神经 元 很 像 遗忘 门 中 的 掩 码 。 

这 个 门 的 第 二 部 分 决定 使 用 多 大 的 值 来 更 新 记忆 。 第 二 部 分 使 用 一 个 tanh 激活 函数 ， 它 强 
制 输出 值 在 -1 和 1 之 间 。 这 两 个 向 量 的 输出 是 按 元 素 相 乘 ， 然 后 ， 将 相 乘 得 到 的 结果 向 量 按 元 
素 加 到 记忆 寄存 器 ， 从 而 记 住 新 的 细节 (如 图 9-8 所 示 )。 

















































































候选 选择 
使 用 sigmoid 
激活 函数 的 
7 个 神经 元 
出 值 在 输出 值 在 
反 -1 和 1 之 间 
n 维 输出 
按 元 素 相 乘 
候选 门 2 维 输出 ] 
一 一 >| 7 维 记忆 向 量 | + n 维 更 新 向 量 a 





按 元 素 相 加 
图 9-8 ”候选 门 

这 个 门 同时 学 习 要 提取 哪些 值 以 及 这 些 特定 值 的 大 小 。 掩 码 和 大 小 成 为 添加 到 记忆 状态 的 
值 。 与 遗忘 门 一 样 ， 候 选 门 会 学 习 在 将 不 合适 信息 添加 到 元 胞 的 记忆 之 前 屏蔽 掉 它们 。 

所 以 我 们 希望 旧 的 、 不 相关 的 信息 被 遗忘， 而 新 的 信息 能 够 被 记 住 。 然 后 我 们 到 达 元 胞 的 最 
后 一 个 门 : 输出 门 。 

到 目前 为 止 , 在 穿越 元 胞 的 过 程 中 , 我 们 只 向 元 胞 的 记忆 写 和 人 了 内 容 ,现在 是 时 候 利用 整个 
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结构 了 。 输出 门 接收 输入 ( 记 住 , 这 仍然 是 t+ 时 刻 元 胞 的 输入 和 大 1 时 刻 元 胞 的 输出 的 拼接 ) 并 
将 其 传递 到 输出 门 。 

拼接 的 输入 被 传递 到 n 个 神经 元 的 权重 中 ,然后 使 用 sigmoid 激活 函数 来 输出 一 个 维 浮 点 
数 向 量 ， 就 像 SimpleRNN 的 输出 一 样 。 但 是 不 同 于 通过 细胞 壁 〈cell wall ) 来 传递 信息 ， 在 网 络 
中 ， 我 们 通过 暂停 部 分 输出 来 传递 信息 。 

我 们 构建 的 记忆 结构 现在 已 经 准备 完成 了 , 它 将 对 我 们 应 该 输出 什么 进行 权衡 , 这 将 是 通过 
使 用 记忆 创建 最 后 一 个 掩 码 来 判断 的 。 这 个 掩 码 也 是 一 种 门 ， 但 是 请 尽量 避免 使 用 门 这 个 术语 ， 
因为 这 个 掩 码 没 有 任何 学 习 过 的 参数 ， 这 有 别 于 前 面 描述 的 3 个 门 。 

由 记忆 创建 的 掩 码 是 对 记忆 状态 的 每 个 元 素 使 用 tanh 函数 ， 它 提供 了 一 个 在 -1 和 1 之 间 的 
寻 维 浮 点 数 向 量 。 然 后 将 掩 码 向 量 与 输出 门 第 一 步 中 计算 的 原始 向 量 按 元 素 相 乘 。 得 到 的 半 维 结 
果 向 量 作为 元 胞 在 上 时 刻 的 正式 输出 最 终 从 元 胞 中 传 出 〈 如 图 9-9 所 示 )。 


! 输 入 
+ 广 1 输 出 





























更 新 门 、 









使 用 sigmoid 
激活 函数 的 
1 个 神经 元 


输出 0~1 


之 间 的 值 | 1 时 刻 层 的 


输出 回 传 自身 






+ 两 个 向 量 
按 元 素 相 加 


/ 


对 记忆 向 量 应 用 tanh 
激活 函数 按 元 素 相 乘 


一 -一 








1 时 刻 层 的 输出 






n 维 记忆 向 量 


图 9-9 更 新 /输出 门 
提示 记 住 ,LSTM 元 胞 的 输出 类 似 于 简单 循环 神经 网 络 层 的 输出 。 它 作为 层 的 输出 (在 t 时刻 ) 
传递 到 元 胞 外 ， 并 作为 村 1 时 刻 输 入 的 一 部 分 回 传 至 元 胞 本 身 。 


因此 , 在 获得 了 1 时 刻 的 输入 和 1 一 1 时刻 的 输出 , 以 及 输入 序列 中 的 所 有 细节 之 后 , 元 胞 的 
记忆 就 知道 在 1 时 刻 ， 最 后 一 个 词 输出 什么 是 最 重要 的 。 




















9.1.1 随时 间 反 向 传播 
那么 这 个 网 络 是 如 何 学 习 的 呢 ? 与 其 他 任何 神经 网 络 一 样 一 一 通过 反 向 传播 算法 。 现 在 , 回 
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过 头 来 看 看 我 们 是 如 何 使 用 这 种 新 的 复杂 结构 来 解决 问题 的 。 基 本 RNN ( Vanilla RNN ) 易于 受 
到 梯度 消失 影响 是 因为 在 任意 给 定时 刻 ， 导 数 都 是 权重 的 一 个 决定 因素 ,因此 ， 当 我 们 结合 不 同 
的 学 习 率 ， 往 之 前 时 刻 ( 词 条 ) 传播 时 ， 经 过 几 次 迭代 之 后 ， 权重 ( 和 学 习 率 ) 可 能 会 将 梯度 缩 
小 到 0。 在 反 向 传播 结束 时 ( 相当 于 序列 的 开始 )， 对 权重 的 更 新 要 么 很 小 要 么 就 为 0。 当 权重 稍 
大 时 也 会 出 现 类 似 的 问题 : 梯度 爆炸 并 不 与 网 络 增长 成 比例 。 

LSTM 通过 记忆 状态 避免 了 这 个 问题 。 每 个 门 中 的 神经 元 都 是 通过 它们 输入 进 的 函数 的 导数 
来 更 新 的 ， 即 那些 在 前 向 传递 时 更 新 记忆 状态 的 函数 。 所 以 在 任何 给 定 的 时 刻 ， 当 一 般 链 式 法 则 
反 向 应 用 于 前 向 传播 时 ， 对 神经 元 的 更 新 只 依赖 于 当前 时 刻 和 前 一 个 时 刻 的 记忆 状态 。 这 样 , 整 
个 函数 的 误差 在 每 个 时 刻 都 能 “更 接近 ”神经 元 。 这 就 是 所 谓 的 误差 传播 (error carousel )。 


实践 


那么 ， 这 在 实践 中 是 如 何 工作 的 呢 ? 就 像 上 一 章 的 简单 的 RNN 一 样 ， 我 们 所 更 改 的 只 是 黑 
盒 的 内 部 工作 方式 ， 它 是 网 络 中 的 一 个 循环 层 。 因 此 ， 我 们 只 需 将 Keras 的 SimpleRNN 层 替 换 
为 Keras 的 LSTM 层 ， 我 们 的 分 类 器 的 其 他 所 有 部 分 都 将 保持 不 变 。 
ee el a ve 对 文本 分 词 并 使 用 Word2vec 获得 词 舱 入 。 
后 , 使 用 前 面 几 童 中 定义 的 函数 , 将 序列 填充 /截断 为 400 个 词 条 。 具体 做 法 参见 代码 清单 9-2。 















































代码 清单 9-2 加载 并 准备 IMDB 数据 





>>> import numpy as np 


>>> dataset = pre process data('./aclimdb/train') Lo 收集 数据 并 做 好 准备 


>>> vectorized data = tokenize and vectorize (dataset) 
>>> expected = collect expected (dataset) 
>>> split point = int(len(vectorized data) * .8) 








>>> x _ train = vectorized datal[l:split point] | 和 到 分 为 训练 信和 测试 


>>> Y train expected[:split _ point] 
>>> x_test Vectorized datalsplit point : 
>>> y_test expected[split point:] 


声明 超 参 数 在 反 向 传播 误差 和 更 新 权重 之 前 需要 
>>> maxlen = 400 传递 给 网 络 的 样本 数 


>>> batch size = 32 


>>> embedding dims = 300 我 们 创建 的 需要 传递 进 
x 
> hs = 2 、 EL 1 
er Convnet 的 词 条 向 量 的 长 度 


>>> x _ train = pad trunc(x train, maxlen) 进一步 准备 数据 ， 使 每 
>>> X test = pad trunc(x test, maxlen) 个 序列 的 长 度 相 等 
>>> x train = np.reshape (x train, 

i (len(x train), maxlen, embedding dims)) 
>>> y train = 

>>> x_test 
>>> y_test 






































np.array (ly_train) 





np.reshape (x test, (len(x test), maxlen, embedding dims)) 
np.array (y_test) 重新 塑 形 成 一 
numpy 数据 结构 
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然后 我 们 可 以 使 用 新 的 LSTM 层 构建 模型 ， 如 代码 清单 9-3 所 示 。 


代码 清单 9-3 ”建立 一 个 Keras 的 LSTM 网 络 








>>> from keras.models import Sequential 
>>> from keras.layers import Dense, Dropout, Flatten, LSTM 





























>>> num neurons = 50 es 

交 瑰 恋 得 简单 
>>> model = Sedquential1() Keras 使 实现 变 得 简单 
>>> model.add (LSTM (num neurons, return sequences=True, 

2 input_ shape= (maxlen, embedding dims))) = A 
>>> model.add (Dropout (.2)) 对 STM 层 的 输出 进 
>>> model.add (Flatten ()) < | 行 扁平 化 处 理 
>>> model.add (Dense(1l, activation='sigmoid')) 一 一 一 一 一 一 一 一 一 
>>> model.compile('rmsprop', ‘'binary crossentropy', metrics=['accuracy']) 
>>> model .summary () 

Layer (type) Output Shape Param # 

lstm 2 (LSTM) (None, 400, 50) 70200 

dropout 2 (Dropout) (None, 400, 50) 0 

flatten 2 (Flatten) (None, 20000) 0 

dense 2 (Dense) (None, 1) 20001 

Total params: 90,201.0 一 个 神经 元 层 ， 它 将 输出 0 
Trainable params: 90,201.0 到 1 之 间 的 浮 点 数 





Non-trainable params: 0.0 

像 前 面 一 样 训 练 并 保存 模型 ， 如 代码 清单 9-4 和 代码 清单 9-5 所 示 。 
代码 清单 9-4 训练 LSTM 模型 

model.fit (x train, y train, ”| 模型 


batch size=batch size, 
epochs=epochs, 
a validation data=(x test, y test)) 
Train on 20000 samples, validate on 5000 samples 





Epoch 1/2 

20000/20000 [==============================] - 548s - loss: 0.4772 - 
AGG 0 T1307.= Val loSBs "03694. = Val aceC 0d.8412 

Epoch 2/2 

20000/20000 [==============================] - 583s - loss: 0.3477 - 


总 人 CS M0...8532 = val loss:” 0. 3451 -val aces 08516 
<keras.callbacks.History at Ox145595fd0> 


代码 清单 9-5 ”保存 模型 


>>> model structure = model.to json() 保存 它 的 结构 ， 这 样 就 
yn 人， 
>>> with open("lstm modell.json", "w") as json _ file: A ey 
人 为 建 这 部 
json file.write (modqe1l_structure) 不 必 再 次 构建 这 部 分 了 




















>>> model.save weights ("lstm weightsl.h5") 
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与 我 们 在 第 8 章 中 使 用 相同 数据 集 实 现 的 简单 的 RNN 相 比 ， 验 证 精确 率 获得 了 一 次 巨大 提 
升 。 当 词 条 之 间 的 关系 非常 重要 时 , 我 们 可 以 看 到 通过 为 模型 提供 记忆 可 以 获得 巨大 的 收益 。 该 
算法 的 美妙 之 处 在 于 ,， 它 可 以 学 习 看 到 的 词 条 之 间 的 关系 。 网 络 现在 能 够 对 这 些 关系 建 模 , 尤其 
是 在 我 们 提供 的 代价 函数 的 上 下 文中 。 

在 这 种 情况 下 , 我 们 离 正 确 识别 正 向 或 负 向 情感 有 多 远 ?诚然 , 这 只 是 自然 语言 处 理 领 域 所 
有 问题 中 的 一 小 部 分 。 例 如 ,我 们 如 何 建 模 识别 幽默 .讽刺 或 焦虑 情感 ?它们 可 以 被 一 起 建 模 吗 ? 
这 绝对 是 时 下 活跃 的 一 个 研究 领域 。 虽然 需要 大 量 手工 标注 的 数据 ( 而 且 每 天 都 会 有 更 多 这 样 的 
数据 )， 但 是 单独 处 理 它们 绝对 是 一 个 可 行 的 方法 ， 并 且 在 我 们 的 流水 线 中 堆 受 这 些 类 型 的 离散 
分 类 器 是 探求 一 个 特定 领域 问题 的 合理 有 效 的 方法 。 

















9.1.2 ”模型 的 使 用 


这 是 非常 有 趣 的 部 分 。 有 了 训练 好 的 模型 ,我 们 可 以 开始 尝试 各 种 样本 短语 ， 并 查看 模型 的 
表现 。 尝 试 欺骗 这 个 模型 吧 : 在 负 向 的 语 境 中 使 用 快乐 的 词 。 尝 试 长 短语 、 短 短语 、 了 矛盾 短语 。 
具体 做 法 参见 代码 清单 9-6 和 代码 清单 9-7。 


代码 清单 9-6 ”重新 加 载 LSTM 模型 


>>> from keras.models import model from json 

>>> with open("lstm modell.json", "r") as json file: 
json string = json file.read() 

>>> model = model from json(json string) 











>>> model.load weights('lstm weightsl.h5') 


代码 清单 9-7 ”使 用 模型 预测 一 个 样本 





>>> sample 1 = """I hate that the dismal weather had me down for so long, 
when will it break! Ugh, when does happiness return? The sun is 
blinding and the puffy clouds are too thin. I can't wait for the 











weekend."™"" 
>>> vec list = tokenize and vectorize([(1, sample 1)]) 一 
>>> test vec list = pad truncl(vec list, maxlen) ”| 分 加 后 返回 数 扣 列 
表 (这 里 长 度 为 1 ) 





>>> test vec = np.reshape (test vec list, 
(len(test vec list), maxlen, embedding dims)) 


为 元 组 的 第 一 个 元 素 传递 一 个 虚 




















>>> print ("Sample's sentiment, 1 - pos, 2- neg : {}"\ 值 ， 因 为 辅助 函数 希望 像 处 理 初始 
rd .format (model.predict classes (test vec))) 4 本 阅 < 
数据 一 样 处 理 新 传人 的 样本 。 这 个 
1/1 [==============================] ~- 0s mt 
Sample's sentiment, 1 - pos, 2- neg : [[0]] 0 所 以 它 可 以 是 任何 
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>>> print ("Raw output of sigmoid function: {}"\ 
2 .format (model.predict (test vec) ) ) 
Raw output of sigmoid function: [[ 0.2192785]] 


当 我 们 尝试 各 种 可 能 性 时 ， 除 离散 的 情感 分 类 之 外 ， 还 需要 观察 sigmoid 函数 的 原始 输出 。 
不 同 于 .predict class() 方 法 ，.predict() 方 法 在 设置 闵 值 之 前 显示 原始 的 sigmoid 激活 
函数 输出 结果 ， 因 此 我 们 可 以 看 到 0 到 1 之 间 的 一 个 连续 值 。 任 何 输出 值 大 于 0.5 的 语句 都 归 为 
正 向 类 ,小 于 0.5 的 都 归 为 负 向 类 。 当 我 们 尝试 不 同样 本 时 ， 我 们 将 了 解 模型 对 其 预测 的 信心 有 
多 强 ， 这 将 有 助 于 分 析 我 们 的 抽查 结果 。 

密切 关注 分 类 错误 的 样本 ( 正 向 的 和 负 向 的 )。 如 果 sigmoid 输出 接近 0.5， 就 意味 着 对 于 这 
个 样本 ， 模 型 只 是 在 随机 抛 硬币 。 然 后 ,我 们 可 以 查看 为 什么 这 个 短语 对 模型 来 说 是 模糊 的 ,但 
是 请 不 要 用 人 类 的 思维 看 待 它 的 表现 。 把 我 们 的 人 类 直觉 和 主观 观点 放 在 一 边 , 试 着 从 统计 学 的 
角度 思考 。 试 着 回想 我 们 的 模型 “看 到 ”了 什么 文档 。 这 个 被 分 类 错误 的 样本 中 出 现 的 词 是 否 罕 
见 ? 它们 是 在 我 们 的 语料库 中 罕见 , 还 是 在 为 我 们 训练 语言 模型 的 语料库 中 罕见 ?该 样本 中 的 所 
有 词 是 否 都 存在 于 模型 的 词汇 表 中 ? 

通过 这 个 过 程 来 检查 概率 ， 并 输入 预测 错误 的 数据 ， 这 将 有 助 于 我 们 建立 机 器 学 习 的 直觉 ， 
这 样 我 们 就 可 以 在 未 来 构建 更 好 的 NLP 流水 线 。 这 是 通过 人 脑 “ 反 向 传播 ”来 解决 模型 调 优 问 
题 的 办 法 。 






























































9.1.3” 脏 数据 


这 个 功能 更 强大 的 模型 仍然 有 大 量 的 超 参 数 可 以 尝试 。 但 现在 我 们 先 暂停 一 下 ,回顾 一 下 开 
台 时 的 数据 。 从 使 用 卷 积 神经 网 络 开始 , 我 们 就 一 直 在 使 用 相同 的 数据 ， 以 完全 相同 的 方式 进行 
处 理 , 这 样 我 们 就 可 以 看 到 模型 类 型 的 变化 以 及 在 给 定数 据 集 上 的 性 能 表现 。 但 是 我 们 确实 做 出 
了 一 些 损害 数据 完整 性 的 选择 ， 或 者 说 弄 脏 了 数据 。 

将 每 个 样本 填充 或 截断 到 400 个 词 条 对 于 卷 积 网 络 非常 重要 , 这 样 过 滤器 (filter ) 就 可 以 “ 扫 
描 ” 长 度 一 致 的 向 量 。 卷 积 网 络 也 能 输出 一 个 长 度 一 致 的 向 量 。 对 输出 来 说 ， 保 持 维 数 的 一 致 是 
很 重要 的 ， 因为 在 链 的 末端 , 输出 将 进入 一 个 全 连接 的 前 馈 层 , 这 个 前 馈 层 需 要 一 个 固定 长 度 的 
向 量 作 为 输入 。 

类 似 地 , 我 们 的 循环 神经 网 络 的 实现 , 包括 简单 的 RNN 和 LSTM, 都 在 努力 构造 一 个 固定 长 度 
的 思想 向 量 ， 我 们 可 以 将 其 传递 到 一 个 前 馈 层 进行 分 类 。 一 个 对 象 的 固定 长 度 的 向 量 表示 ， 如 思想 
向 量 ,通常 也 被 称 为 谋 入 (embedding )。 因 此 ， 思 想 向 量 的 大 小 是 相同 的 ， 我 们 必须 将 网 络 展 开 至 
相同 的 时 刻 〈 词 条 ) 数 。 让 我 们 看 看 将 网 络 展开 为 400 个 时 刻 的 选择 如 何 ， 如 代码 清单 9-8 所 示 。 





















































代码 清单 9-8 优化 思想 向 量 大 小 





>>> def test_len(dqata，maxlen) : 
total len = truncated = exact = padded = 0 
for sample in data: 
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total len += len (sample) 

if len(sample) > maxlen: 
truncated += 1 

elif len(sample) < maxlen: 
padded += 1 

else: 
exact +=1 





print('Padded: {}'.format (padded)) 

print('Equal: {}'.format (exact)) 

print('Truncated: {}'.format (truncated)) 
print('Avg length: {}'.format (total len/len (data))) 


>>> dataset = pre process data('./aclimdb/train') 
>>> vectorized data = tokenize and vectorize (dataset) 
>>> test len(vectorized data, 400) 

Padded: 22559 

Equal: 12 

Truncated: 2429 

Avg length: 202.4424 


好 吧 ，400 确实 是 一 个 有 点 儿 偏 高 的 数字 ( 可 能 早 就 该 做 这 个 分 析 了 )。 我 们 将 maxlen 调 
回 到 202 个 词 条 左右 (平均 样本 大 小 ), 我 们 取 其 四 多 五 入 值 , 即 200 个 词 条 , 并 让 我 们 的 LSTM 
网 络 再 尝试 一 次 ， 如 代码 清单 9-9 至 代码 清单 9-11 所 示 。 


代码 清单 9-9 优化 LSTM 模型 超 参数 


>>> import numpy as np 





>>> from keras.models import Sequential 
>>> from keras.layers import Dense, Dropout, Flatten, LSTM 


2 所 有 代码 和 之 前 一 样 ， 但 是 我 们 


>>> batch size = 32 
pt | = bE [ 主 2 个 词 条 
>>> embedding dims = 300 限制 最 大 长 度 为 200 个 词 条 


>>> epochs = 2 
>>> num _ neurons = 50 





>>> dataset = pre process datal('./aclimdb/train') 
>>> vectorized data = tokenize and vectorize (dataset) 
>>> expected = collect expected (dataset) 

>>> split point = int(len(vectorized data)*.8) 

>>> x train = vectorized data[:split point] 

>>> y train = expected[:split point] 


>>> X test = vectorized datalsplit point:] 
>>> y_ test = expected[split point:] 


>>> x train = pad trunc(x train, maxlen) 
>>> X test = pad trunc(x test, maxlen) 
>>> x train = np.reshape (x train, (len(x train), maxlen, embedding dims)) 


>>> y train = np.array (y_train) 
>>> x _ test = np.reshape (x test, (len(x test), maxlen, embedding dims)) 
>>> y_test = np.array(y test) 
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A A SAIN: RS 





>>> model = Sequential () 

>>> model.add (LSTM (num neurons, return sequences=True, 

Se input_ shape= (maxlen, embedding dims))) 

>>> model.add (Dropout (.2)) 

>>> model.add (Flatten ()) 

>>> model.add (Dense (1, activation='sigmoid')) 

>>> model.compile('rmsprop', 'binary crossentropy', metrics=['accuracy']) 
>>>model .summary () 











Layer (type) Output Shape Param # 
istmi sm one, 200, 50) oo 
dropout 1 (Dropout) (None, 200, 50) 0 

flatten 1 (Flatten) (None, 10000) 0 

dense 1 (Dense) (None, 1) 10001 


Total params: 80,201.0 
Trainable params: 80,201.0 
Non-trainable params: 0.0 


代码 清单 9-11 训练 一 个 更 小 的 LSTM 





>>> model.fit(x train, y train, 
batch size=batch size, 
epochs=epochs, 
i validation data=(x test, y test)) 
Train on 20000 samples, validate on 5000 samples 


Epoch 1/2 

20000/20000 [==============================] - 245s - loss: 0.4742 - 
CC 0 TIO0 = val loss: 0.4235 = Vval ace: 0.8010 

Epoch 2/2 

20000/20000 [==============================] - 203s - loss: 0.3718 - 


dc 0.083860 = val lose: 0.3499 = "val acce» 0 .8450 


>>> model structure = model.to json() 
>>> with open("lstm model7.json", "w") as json file: 
json file.write (model structure) 


>>> model.save weights ("lstm weights7.h5") 


这 样 训练 的 速度 更 快 ， 验 证 精确 率 下 降 了 不 到 1% (84.5% 相 比 于 85.16% )。 只 使 用 一 半 时 刻 的 
样本 ， 但 我 们 将 训练 时 间 减 少 一 半 以 上 ! 只 有 一 半 的 LSTM 时 刻 需 要 计算 ， 并 且 在 前 馈 层 中 只 有 一 
半 的 权重 需要 学 习 。 但 最 重要 的 是 ， 反 向 传播 每 次 只 需 走 一 半 的 距离 ( 只 需 一 半 的 时 刻 回 到 过 去 )。 

然而 , 精确 率 变 低 了 。 一 个 200 维 模型 不 是 比 之 前 的 400 维 模 型 的 泛 化 能 力 更 好 ( 过 拟 合 更 
少 ) 吗 ? 这 是 因为 我 们 在 这 两 个 模型 中 都 包含 了 一 个 dropout 层 。dropout 层 有 助 于 防止 过 拟 合 ， 
因此 当 我 们 减 小 模型 的 自由 度 或 减少 训练 周期 数 时 ， 验 证 精确 率 只 会 变 得 更 低 。 
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由 于 神经 网 络 的 强大 功能 以 及 它们 学 习 复杂 模式 的 能 力 ， 人 们 时 常 忘记 ， 一 个 设计 良好 的 神经 网 
络 善于 学 习 丢 弃 噪 声 和 系统 俩 差 。 我 们 把 所 有 那些 零 向 量 都 加 进来 ,无 意 中 给 数据 带 来 了 很 大 的 侦 差 。 
即使 所 有 输入 都 为 零 向 量 ， 每 个 节点 的 偏 置 项 元 素 也 仍然 会 给 它 一 些 信号 。 但 最 终 ， 网 络 将 学 会 完全 
忽略 这 些 元 素 〈 会 将 偏 置 项 元 素 的 权重 特别 调整 为 零 )， 从 而 专注 于 样本 中 包含 有 意义 信息 的 部 分 。 

所 以 优化 后 的 LSTM 虽然 没 能 学 到 更 多 信息 , 但 是 它 可 以 学 得 更 快 。 但 是 , 这 里 最 重要 的 一 点 是 
要 注意 测试 集 样本 的 长 度 与 训练 集 样本 的 长 度 有 关 。 如 果 我 们 的 训练 集 是 由 数 千 个 词 条 长 的 文档 组 成 
的 ， 那么 将 只 有 3 个 词 条 长 的 文档 填充 到 1000 个 词 条 就 可 能 无 法 得 到 一 个 精确 的 分 类 结果 。 反 之 ， 
将 一 个 1000 个 词 条 的 文档 截断 到 3 个 词 条 ， 对 于 在 3 个 词 条 长 的 文档 中 训练 的 小 模型 同样 也 会 造成 
困扰 。 当 然 ， 这 并 不 是 说 LSTM 不 能 处 理 好 这 种 情况 ， 只 是 提醒 大 家 在 做 实验 时 需要 注意 这 一 点 。 































































































9.1.4 “未 知 ” 词 条 的 处 理 


在 数据 处 理 方面 ， 什 么 可 能 会 成 为 巨大 的 麻烦 呢 ? 管 案 是 直接 丢弃 “未 知 ” 词 条 。“ 未 知 ” 
词 条 基本 上 就 是 在 预 训练 的 Word2vec 模型 中 找 不 到 的 词 , 其 列表 非常 大 。 直接 丢弃 这 么 多 数据 ， 
尤其 是 试图 对 词 序 列 建 模 时 ， 通 常会 造成 很 大 的 问题 。 

当 词 能 入 词汇 表 中 不 包含 “不 ”( don't ) 这 个 词 时 ， 类 似 于 这 样 的 句子 : 


















































JT don + like this movie. 
( 我 不 喜欢 这 部 电影 。) 
可 能 会 变 成 
JT like this movie. 
(我 喜欢 这 部 电影 。) 
当然 ,这 个 例子 在 实际 Word2vec 词 朋 入 模型 中 并 不 存在 ,但 是 Word2vec 中 确实 忽略 了 许多 词 条 ， 
这 些 词 条 可 能 对 我 们 很 重要 ,也 可 能 不 重要 。 丢 弃 这 些 未 知 词 条 是 一 种 处 理 策略 , 但 是 还 有 其 他 
策略 可 选 。 我 们 可 以 使 用 或 训练 一 个 词 骨 入 模型 ,该 模型 中 的 每 一 个 词 条 都 会 对 应 一 个 向 量 , 但 
是 这 样 做 会 付出 昂贵 的 代价 。 
有 两 种 常见 的 方法 可 以 在 不 增加 计算 需求 的 情况 下 提供 更 好 的 结果 。 这 两 种 方法 都 涉及 用 新 
的 向 量 表示 替代 未 知 的 词 条 。 第 一 种 方法 是 反 直 觉 的 : 对 于 没有 由 向 量 建 模 的 每 个 词 条 ， 从 现 有 
词 艇 入 模型 中 随机 选择 一 个 向 量 并 使 用 它 。 我 们 可 以 很 容易 地 看 出 ， 这 会 使 人 类 读者 感到 困惑 。 
一 个 类 似 于 这 样 的 句子 : 
The man who was defenestrated, brushed himself off with a nonchalant glance back inside. 


( 那 名 被 丢 出 窗外 的 男子 拂 去 了 衣衫 上 的 灰尘， 若无其事 地 回头 看 了 里 面 一 上 腿 ,) 















































The man who was duck, brushed himself off with a airplane glance back inside. 


( 那 名 是 鸭子 的 男子 ， 拂 去 了 衣衫 上 的 灰 千 ， 用 飞机 回头 看 了 里 面 一 眼 。) 
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一 个 模型 如 何在 这 样 的 胡言 乱 语 中 学 习 ? 事实 证 明 , 模型 确实 解决 了 这 些小 问题 , 就 像 在 之 
前 的 示例 中 我 们 不 管 它 一 样 。 记 住 , 我 们 并 不 是 要 显 式 地 对 训练 集中 的 每 个 语句 建 模 。 我 们 的 目 
标 是 在 训练 集中 创建 一 种 通用 的 语言 模型 。 这 样 就 会 存在 一 些 异 常 值 , 但 我 们 不 希望 存在 太 多 的 
异常 值 以 至 于 描述 主要 语言 模式 时 偏离 模型 。 

第 二 种 也 是 更 常见 的 方法 是 , 在 重 构 原始 输入 时 , 用 一 个 特定 的 词 条 替换 词 向 量 库 中 没有 的 
所 有 词 条 ,这 个 特定 的 词 条 通常 称 为 “UNK”( 未 知 词 条 )。 这 个 向 量 本 身 要 么 是 在 对 原始 襄 入 建 
模 时 选择 的 ， 要 么 是 随机 选择 的 〈 理想 情况 是 远离 空间 中 已 知 的 向 量 )。 

与 填充 一 样 ， 网 络 可 以 学 习 如 何 绕 过 这 些 未 知 的 词 条 ， 并 围绕 它们 得 出 自己 的 结论 。 






























































9.1.5 ”字符 级 建 模 


词 是 有 含义 的 一 一 我 们 都 同意 这 一 点 。 用 这 些 基 本 的 模块 来 对 自然 语言 建 模 看 起 来 很 自然 。 
使 用 这 些 模型 从 原子 结构 的 角度 来 描述 含义 、 情 感 、 意 图 和 其 他 一 切 似乎 也 很 自然 。 但 是 , 当然 ， 
词根 本 就 不 是 原子 性 的 。 如 前 所 述 ， 它 们 由 单位 更 小 的 词 、 词 干 、 音 素 等 组 成 。 但 更 重要 的 一 点 
是 ， 它 们 更 基本 地 也 都 是 由 一 系列 字符 构成 的 。 
在 对 语言 建 模 时 ， 许 多 含义 隐藏 在 字符 里 面 。 语 音 语 调 、 头 韵 、 韵 律 一 一 如 果 我 们 把 它们 分 
解 到 字符 级 别 ， 可 以 对 所 有 这 些 建 模 。 人 类 不 需要 分 解 得 如 此 细致 就 可 以 为 语言 建 模 。 但是， 从 
建 模 中 产生 的 定义 非常 复杂 ， 并 不 容易 传授 给 机 器 ,这 就 是 我 们 讨论 这 个 问题 的 原因 。 对 于 我 们 
见 过 的 字符 ， 当 我 们 查看 文本 中 哪个 字符 出 现在 哪个 字符 后 面 时 ,可 以 发 现 文本 中 的 许多 固有 的 
模式 。 

在 这 个 范式 中 , 空格、 逗号 或 句号 都 变 成 了 男 一 个 字符 。 当 网 络 从 序列 中 学 习 含 义 时 ， 如 果 
我 们 把 它们 分 解 成 单个 的 字符 , 模型 就 会 被 迫 来 寻找 这 些 更 低层 级 的 模式 。 当 注意 到 有 一 些 音节 
后 面 是 重复 的 , 这 可 能 是 押韵 的 后 级， 可 能 是 一 种 带 有 意义 的 模式 , 或 许 代 表 着 愉快 或 嘲笑 的 情 
感 。 随 着 学 习 了 足够 大 的 训练 集 ， 这 些 模式 开始 显现 。 因 为 英语 中 不 同 的 字母 比 词 要 少 得 多 , 所 
以 需要 关心 的 输入 向 量 相 对 也 就 少 了 。 

然而 , 在 字符 级 别 训练 模型 仍 是 很 棘手 的 。 在 字符 级 别 发 现 的 模式 和 长 期 依赖 关系 在 不 同 的 
语调 中 可 能 会 有 很 大 的 差异 。 我 们 或 许可 以 找到 这 些 模 式 ， 但 它们 可 能 不 具有 泛 化 性 。 让 我 们 在 
同一 样本 数据 集中 , 在 字符 级 别 上 尝试 LSTM。 首 先 ,我 们 需要 用 不 同 的 方式 处 理 数据 。 与 前 面 
一 样 ， 获 取 数 据 并 通过 标签 进行 排序 ， 如 代码 清单 9-12 所 示 。 


代码 清单 9-12 ”准备 数据 


>>> dataset = pre process datal('./aclimdb/train') 
>>> expected = collect expected (dataset) 


然后 需要 决定 将 网 络 展开 至 多 远 ， 所 以 我 们 需要 观察 数据 样本 中 平均 有 多少 个 字符 ， 如 代码 清 
单 9-13 所 示 。 
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代码 清单 9-13 ”计算 样本 平均 长 度 





>>> def avg len (data): 
total len = 0 
for sample in data: 
total len += len (sample{[1]) 
return total len/len (data) 


>>> avg_len (dataset) 
1325.06964 


所 以 我 们 立即 就 能 知道 网 络 将 要 被 展开 得 更 远 , 并 且 我 们 需要 等 很 长 时 间 才能 训练 完成 这 个 
模型 。 剧 透 一 下 : 这 个 模型 除 过 拟 合 之 外 什么 都 没 做 ， 但 是 它 提供 了 一 个 有 趣 的 例子 。 

接 下 来 ， 我 们 需要 清除 一 些 与 文本 的 自然 语言 无 关 的 词 条 数据 。 此 函数 过 滤 出 了 数据 集中 
HTML 标签 中 的 一 些 无 用 字符 。 实 际 上 , 数据 应 该 被 更 彻底 地 清洗 。 具体 做 法 参见 代码 清单 9-14。 








代码 清单 9-14 ”准备 基于 字符 模型 的 字符 串 





>>> def clean data (data): 
"""Shift to lower case, replace unknowns with UNK, and listify""" 
new data = [] 
VALID = 'abcdefghijklmnopqrstuvwxyz0123456789"™\'?31.,:; ! 
for sample in data: 
new_sample = [] 


f Ph j le[1].1 
or char in sample[1].lower() | 


if char in VALID: 
需要 标签 
new_sample.append (char) 不 需要 标签 


else: 
new_sample.append ('UNK') 
new_data.append (new_ sample) 
return new data 


Ld 








>>> listified data = clean data (dataset) 


我 们 使 用 了 'UNK' 表示 列表 中 所 有 不 出 现在 VALID 列表 中 的 单个 字符 。 
然后 , 与 前 面 一 样 , 将 样本 填充 或 截断 到 指定 的 maxlen 长 度 。 这里, 我 们 引入 了 另 一 个 用 
于 填充 的 “单字 符 ” 一 一 ' PAD' 。 具 体 做 法 参见 代码 清单 9-15。 


代码 清单 9-15 ”填充 和 截断 字符 





>>> def char pad trunc(data, maxlen=1500): 
""" We truncate to maxlen or add in PAD tokens "™"" 
new dataset = [] 
for sample in data: 
if len(sample) > maxlen: 
new data = samplel[:maxlen] 
elif len(sample) < maxlen: 
pads = maxlen - len(sample) 
new_ data = sample + ['PAD'] * pads 
else: 
new data = sample 
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new dataset.append (new data) 
return new dataset 


我 们 选择 1500 作为 maxlen 来 获得 比 平均 样本 长 度 略 多 的 样本 数据 ， 但 是 我 们 应 该 尽量 避 
免 使 用 会 带 来 过 多 噪声 的 PAD。 考 虑 词 的 长 度 会 帮助 我 们 做 出 选择 。 在 固定 的 字符 长 度 下 ， 与 完 
全 由 简单 的 单 音 节 词 组 成 的 样本 相 比 , 具有 大 量 长 词 的 样本 可 能 被 从 采样 。 与 所 有 机 器 学 习 问题 
一 样 ， 了 解数 据 集 和 它 的 输入 、 输 出 非常 重要 。 

这 一 次 ， 我 们 将 使 用 独 热 编码 字符 ， 而 不 是 使 用 Word2vec。 因 此 ， 我 们 需要 创建 一 个 词 条 
(字符 ) 字典 ， 该 字典 被 映射 到 一 个 整数 索引 。 我 们 还 将 创建 一 个 字典 来 映射 相反 的 内 容 ， 稍 后 
将 详细 介绍 。 具 体 做 法 参见 代码 清单 9-16。 





代码 清单 9-16 ”基于 字符 的 模型 “字典 ” 


>>> def create dicts (data): 
"WW Modified from Keras LSTM example"™"" 
chars = set() 
for sample in data: 
chars.update (set (sample)) 
char indices = dict((c, i) for i, c in enumerate (chars)) 
indices char = dict((i, c) for i, c in enumerate (chars)) 
return char indices, indices char 


然后 可 以 使 用 该 字典 来 建立 索引 的 输入 向 量 ， 而 不 是 词 条 本 身 ， 如 代码 清单 9-17 和 代码 清 
单 9-18 所 示 。 





代码 清单 9-17 ”字符 的 独 热 编码 





>>> import numpy as np 


>>> def onehot encode (dataset, char indices, maxlen=1500): 


mm 


One-hot encode the tokens 


Args: 
dataset list of lists of tokens 
char_ indices 
dictionary of {key=character, 
value=index to use encoding vector} 
maxlen int Length of each sample 
Return: 
np array of shape (samples, tokens, encoding length) 
xX = np.zeros((len(dataset), maxlen, lenl(char indices.keys()))) 
for i, sentence in enumerate (dataset): 
for t, char in enumerate (sentence): 
xX[i, t, char indices[char]] = 


es “| 一 个 长 度 等 于 数据 样本 数量 的 numpy 数组 一 一 


每 个 样本 有 maxlen 个 词 条 数 ， 每 个 词 条 是 一 个 
长 度 等 于 字符 数量 的 独 热 编码 向 量 
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代码 清单 9-18 加载 和 预 处 理 IMDB 数据 





>>> dataset = pre process data('./aclimdb/train') 
>>> expected = collect expected (dataset) 
>>> listified data = clean data (dataset) 


>>> common length data = char pad trunc(listified data, maxlen=1500) 
>>> char indices, indices char = create dicts (common length data) 
>>> encoded data = onehot encode (common length data, char indices, 1500) 


然后 如 之 前 章节 一 样 划 分 数据 ， 如 代码 清单 9-19 和 代码 清单 9-20 所 示 。 


代码 清单 9-19 ”将 数据 集 划 分 为 训练 集 ( 80% ) 和 测试 集 ( 20% ) 





>>> split point = int(len(encoded data)*.8) 


>>> x _ train = encoded datal[l:split point] 
>>> y train = expected[:split point] 
>>> x_test = encoded data[lsplit point:] 
>>> y_test = expected[split point:] 





>>> from keras.models import Sequential 
>>> from keras.layers import Dense, Dropout, Embedding, Flatten, LSTM 


>>> num neurons = 40 
>>> maxlen = 1500 
>>> model = Sequential () 


>>> model.add (LSTM (num neurons, 
return sequences=True, 
input_ shape= (maxlen, len(char indices.keys())))) 
el.add (Dropout (.2)) 
el.add (Flatten ()) 
el.add (Dense (1, activation='sigmoid')) 
>>> model.compile('rmsprop', ‘'binary crossentropy', metrics=['accuracy']) 
e 

















>>> model .summary () 

Layer (type) Output Shape Param # 
istm2 sam done, iso 13920 
dropout 2 (Dropout) (None, 1500, 40) 0 

flatten 2 (Flatten) (None, 60000) 0 

dense 2 (Dense) (None, 1) 60001 


Total params: 73,921.0 
Trainable params: 73,921.0 
Non-trainable params: 0.0 


这 样 ， 我 们 在 构建 LSTM 模型 方面 变 得 更 加 高 效 。 我 们 最 新 的 基于 字符 的 模型 只 需要 训练 
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7.4 万 个 参数 ， 而 优化 后 的 基于 词 的 LSTM 需要 训练 8 万 个 参数 。 这 个 简单 的 模型 应 该 训练 得 更 
快 ， 并 能 更 好 地 推广 到 新 文本 ， 因 为 它 具 有 较 小 的 过 拟 合 自由 度 。 

现在 我 们 可 以 尝试 一 下 ， 看 看 基于 字符 的 LSTM 模型 需要 提供 什么 参数 ， 如 代码 清单 9-21 
和 代码 清单 9-22 所 示 。 


代码 清单 9-21 训练 基于 字符 的 LSTM 网 络 





>>> batch size = 32 
>>> epochs = 10 
>>> model.fit(x train, y train, 
batch size=batch size, 
epochs=epochs, 
validation data=(x test, y test)) 
Train on 20000 samples, validate on 5000 samples 





























Epoch 1/10 

20000/20000 [==============================] - 634s - loss: 0.6949 - 
cos 5380 = val losss 0Q.017D = wal aCe 0 050738 

Epoch 2/10 

20000/20000 [==============================] - 668s - loss: 0.6087 - 
cex QOT00 = Val losss 052.67867 ~- val :acces (i5962 

Epoch 3/10 

20000/20000 [==============================] - 695s - loss: 0.5358 - 
aC6s 03D6. = YA losss 27L82% = val aoos O086 

Epoch 4/10 

20000/20000 [==============================] - 686s - loss: 0.4662 - 
AGC D7832 = val Lossge .0.7005 = val accs DB 

Epoch 5/10 

20000/20000 - 694s - loss: 0.4062 - 
acts "0..8206 D892 

Epoch 6/10 

20000/20000 [==============================] - 694s - loss: 0.3550 - 
acc: 0.8448 - val loss: 0.8851 ~ val acec: 0.5842 

Epoch 7/10 

20000/20000 [==============================] - 645s - loss: 0.3058 - 
aCes 0 B705. = val losse 0 .9598 = wal eo 0.5930 

Epoch 8/10 

20000/20000 [==============================] - 684s - loss: 0.2643 - 
Cos "0 B91 = Val losss L0360 = val ac 0 .5888 

Epoch 9/10 

20000/20000 [==============================] - 671s - loss: 0.2304 - 
CC 0 9055. .5 -Val losss. Trl323 7 ,val-.acce 0Q250914 

Epoch 10/10 

20000/20000 [==============================] - 663s - loss: 0.2035 - 
acGe% O09L81 = val losss L132091 val ac 0.5948 


代码 清单 9-22 ”保存 模型 


>>> model structure = model.to json() 

>>> with open("char lstm model3.json", "w") as json file: 
json file.write (model structure) 

>>> model.save weights ("char lstm weights3.h5") 
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92% 的 训练 集 精确 率 与 59% 的 验证 精确 率 表明 模型 出 现 了 过 拟 合 。 模型 开始 缓慢 地 学 习 训 练 
集 的 情感 。 天 哪 ! 真 的 耗 时 太 久 了 ! 在 没有 GPU 的 现代 笔记 本 电脑 上 ， 它 花费 了 超过 1.5 小 时 
的 时 间 。 但 是 验证 精确 率 却 没有 比 随机 猜测 提高 多 少 , 在 后 期 的 训练 周期 中 , 它 开始 变 得 更 糟糕 ， 
我 们 也 可 以 在 验证 的 损失 中 看 到 这 一 点 。 

这 可 能 是 很 多 情况 导致 的 。 对 数据 集 来 说 , 该 模型 可 能 过 于 强大 , 这 意味 着 它 有 足够 的 参数 ， 
可 以 为 训练 集 的 20 000 个 样本 特有 的 模式 进行 建 模 ， 但 对 于 关注 情感 的 通用 语言 模型 则 没有 用 
处 。 如 果 LSTM 网 络 层 的 dropout 百分率 更 高 或 神经 元 更 少 ， 这 一 问题 可 能 会 得 到 缓解 。 如 果 我 
们 认为 模型 定义 的 参数 量 过 于 庞大 , 那么 更 多 的 标注 数据 也 会 有 所 帮助 。 但 是 高 质量 的 标注 数据 
通常 是 最 难 获 得 的 。 

最 后 , 与 词 级 LSTM 模型 , 其 至 前 几 章 中 的 卷 积 神经 网 络 相 比 , 这 个 回报 有 限 的 模型 在 硬件 
和 时 间 上 带 来 了 巨大 的 开销 。 那么 为 什么 还 要 考虑 使 用 字符 级 LSTM 模型 呢 ? 如 果 有 更 多 、 更 广 
泛 的 数据 集 ， 则 字符 级 模型 会 非常 擅长 对 语言 建 模 。 或 者 说 ， 在 提供 一 套 专项 领域 的 训练 集 时 ， 
它 能 为 一 种 特定 的 语言 类 型 建 模 ， 例 如 从 某 一 位 作者 那里 学 习 ， 而 不 是 从 数 千 名 作者 那里 学 习 。 
无 论 如 何 ， 我 们 已 经 迈 出 了 用 神经 网 络 生成 新 文本 的 第 一 步 。 






























































































































































9.1.6 ”生成 聊天 文字 


如 果 能 以 特定 的 “风格 ”或 “看 法 ”生成 新 的 文本 ,我 们 肯定 会 拥有 一 个 非常 有 趣 的 聊天 机 
器 人 。 当 然 , 能够 生成 具有 给 定 风格 的 新 文本 并 不 能 保证 聊天 机 器 人 会 谈论 我 们 希望 它 谈论 的 事 
情 。 但 是 , 我 们 可 以 使 用 这 种 方法 在 给 定 的 一 组 参数 中 生成 大 量 文本 ( 例如 响应 某 类 用 户 的 风格 )， 
然后 对 于 一 个 给 定 的 查询 ， 可 以 基于 这 个 新 的 、 更 大 的 文本 语料库 索引 和 搜索 最 有 可 能 的 回复 。 

就 像 一 个 马尔 可 夫 链 (Markov chain )， 根 据 出 现在 1-gram、2-gram 或 者 n-gram 后 的 词 ， 预 
测序 列 将 要 出 现 的 下 一 个 词 ， LSTM 模型 也 可 以 基于 它 刚 刚 看 到 的 词 , 学习 预测 下 一 个 词 出 现 的 
概率 ， 这 就 是 记忆 带 来 的 好 处 ! 马尔 可 夫 链 只 使 用 n-gram 以 及 在 n-gram 之 后 出 现 的 词 的 频率 信 
息 来 进行 搜索 。RNN 模型 也 做 了 类 似 的 事情 ， 它 基于 前 几 项 的 下 一 项 的 信息 进行 编码 ， 但 是 有 
了 LSTM 的 记忆 状态 , 模型 可 以 在 更 大 的 上 下 文中 判断 最 合适 的 下 一 项 。 最 令 人 兴奋 的 是 , 我 们 
可 以 根据 之 前 文档 出 现 过 的 字符 来 预测 下 一 个 字符 。 这 种 粒度 级 别 超出 了 基本 的 马尔 可 夫 链 。 

我 们 如 何 训练 模型 来 完成 这 项 魔术 操作 呢 ? 首先 ,我 们 搬 开 分 类 任务 。LSTM 模型 学 习 的 真 
正 核心 是 LSTM 元 胞 本 身 , 但 是 我 们 却 是 在 围绕 特定 分 类 任务 的 成 功 和 失败 来 训练 模型 。 这 种 方 
法 不 一 定 能 帮助 我 们 的 模型 学 习 语言 的 一 般 表示 形式 。 我 们 训练 它 只 关注 那些 包含 了 强烈 情感 的 
序列 。 

因此 , 我 们 应 该 使 用 训练 样本 本 身 ， 而 不 是 使 用 训练 集 的 情感 标签 来 作为 学 习 的 目标 ! 对 于 
样本 中 的 每 个 词 条 , 我们 希望 LSTM 模型 能 学 会 预测 下 一 个 词 条 (如 图 9-10 所 示 )。 这 与 第 6 章 
中 使 用 的 词 向 量 般 入 方法 非常 相似 ， 只 是 我 们 将 通过 2-gram 而 不 是 skip-gram 来 训练 网 络 。 以 这 
种 方式 训练 的 词 生成 器 模型 ( 如 图 9-10 所 示 ) 可 以 很 好 地 工作 ， 言 归 正 传 ， 我 们 使 用 这 个 方法 
可 以 直接 获得 字符 级 别 的 表示 〈 如 图 9-11 所 示 )。 
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隐藏 层 隐藏 层 隐藏 层 隐藏 层 隐藏 层 隐藏 层 隐藏 层 
C:) 


预期 输出 是 样本 中 的 下 一 个 词 条 。 这 是 
图 9-10 ”预测 下 一 个 词 





















预期 输出 是 样本 中 的 下 一 个 词 条 。 这 里 显示 的 是 字符 级 别 
图 9-11 ”预测 下 一 个 字符 





我 们 将 关心 每 一 个 时 刻 的 输出 , 而 不 是 最 后 一 个 时 刻 输出 得 到 的 思想 向 量 。 误差 仍然 会 由 每 
一 个 时 刻 随时 间 反 向 传播 回 到 开始 时 刻 , 但 是 误差 是 由 每 个 时 刻 级 别 的 输出 确定 的 。 在 某 种 意义 
上 ， 本 章 的 其 他 LSTM 分 类 器 中 也 是 这 样 的 ， 但 是 在 其 他 分 类 器 中 ， 直 到 序列 末尾 才 确 定 误 差 。 
只 有 在 序列 的 末尾 ， 才 有 一 个 聚合 的 输出 用 来 输入 链 末 端的 前 馈 层 。 尽 管 如 此 ,， 反 向 传播 仍然 以 
相同 的 方式 工作 着 一 一 通过 调整 序列 末尾 的 所 有 权重 来 聚合 误差 。 

所 以 我 们 要 做 的 第 一 件 事 就 是 调整 训练 集 的 标签 。 输 出 向 量 对 比 的 不 是 给 定 的 分 类 标签 ,而 
是 序列 中 下 一 个 字符 的 独 热 编码 。 

我 们 可 以 回 到 更 简单 的 模型 。 这 次 我 们 不 是 试图 预测 每 个 后 续 字 符 , 而 是 预测 给 定 序列 的 下 
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一 个 字符 。 如 果 去 掉 关 键 字 参数 return_sequences=True ( 如 代码 清单 9-17 所 示 ), 这 与 
本 章 中 的 其 他 所 有 LSTM 层 完全 相同 。 这 样 做 将 使 LSTM 模型 聚焦 于 序列 中 最 后 一 个 时 刻 的 返 
回 值 (如 图 9-12 所 示 )。 









给 定 字符 序列 ， 只 预测 下 一 个 字符 


预期 输出 
(在 本 例 中 ， 是 一 个 句号 ) 





图 9-12 ”只 预测 最 后 一 个 字符 


9.1.7 进一步 生成 文本 


简单 的 字符 级 建 模 是 通 向 更 复杂 模型 的 必 经 之 路 一 一 这 些 模型 不 仅 可 以 获取 拼写 等 细节 , 还 
可 以 获取 语法 和 标点 符号 。 真 正 神 奇 的 是 ， 当 这 些 模 型 学 习 这 些 语法 细节 时 ,它们 也 开始 学 习 文 
本 的 节奏 和 韵律 。 我 们 看 看 如 何 使 用 一 开始 是 用 于 分 类 的 模型 来 生成 一 些 新 的 文本 。 

Keras 文档 提供 了 一 个 很 好 的 例子 。 对 于 这 个 项 目 ， 我 们 将 保留 到 目前 为 止 使 用 的 电影 评论 
数据 集 。 对 于 寻找 像 音 调和 词 选 择 这 样 深奥 的 概念 ,该 数据 集 有 两 个 难以 解决 的 问题 。 首先 , 它 
是 多 样 化 的 。 它 是 由 许多 作者 写 的 ， 每 个 作者 都 有 自己 的 写作 风格 和 个 性 ， 找 到 他 们 之 间 的 共同 
点 十 分 困难 。 使 用 足够 大 的 数据 集 , 开发 一 个 能 够 处 理 多 种 样式 的 复杂 语言 模型 是 可 能 的 , 但 这 会 
导致 使 用 IMDB 数据 集 的 第 二 个 问题 ， 对 于 学 习 基于 字符 的 通用 语言 模型 ， 它 是 一 个 非常 小 的 数 
据 集 。 为 了 解决 这 个 问题 , 我 们 需要 一 个 在 样本 风格 和 音调 更 一 致 的 数据 集 , 或 者 一 个 大 得 多 的 数 
据 集 ， 我 们 会 选择 前 者 。Keras 的 示例 提供 了 弗 里 德里 希 . 尼采 ( Friedrich Nietzsche ) 作品 的 一 个 
样本 。 这 很 有 趣 ， 但 我 们 将 选择 另 一 个 风格 独特 的 人 一 一 威廉 ， 莎士比亚 〈 William Shakespeare )。 他 
已 经 有 一 段 时 间 没 发 表 任何 作品 了 ， 我 们 来 帮 他 吧 。 具 体 做 法 参见 代码 清单 9-23。 























代码 清单 9-23 ”导入 古 腾 堡 计划 数据 集 





>>> from nltk.corpus import gutenberg 
>>> 
>>> gutenberg.fileids () 
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['austen-emma .txt', 
'austen-persuasion.txt', 
'austen-sense.txt', 
'bible-kjv.txt', 
'blake-poems .txt"', 
'bryant-stories.txt', 
'burgess-busterbrown.txt', 
'carroll-alice.txt', 
'chesterton-ball .txt', 
'chesterton-brown.txt', 
'chesterton-thursday.txt', 
'edgeworth-parents.txt', 
'melville-moby dick.txt', 
‘milton-paradise.txt', 
'shakespeare-caesar.txt', 
'shakespeare-hamlet .txt', 
'shakespeare-macbeth.txt', 
'whitman-leaves .txt'] 


上 面 给 出 的 是 莎士比亚 的 3 部 戏剧 。 我 们 将 获取 它们 的 资源 ,并 将 它们 拼接 到 一 个 大 字符 串 
中 ， 这 一 过 程 参见 代码 清单 9-24。 





代码 清单 9-24 ” 预 处 理 莎士比亚 的 戏剧 





>>> text = "" 


>>> for txt in gutenberg.fileids(): 拼接 NLTK 的 古 腾 保 语料库 中 
ER if "Shakespeare' in txt: 所 有 的 莎士比亚 戏剧 


a text += gutenberg.raw (txt) .lower() 
>>> chars = sorted(list(set (text))) 





























>>> char indices = dict((c, 1) 为 索引 建立 一 个 字符 字典 ， 
二 for i, c in enumerate (chars)) 以 便 在 独 热 编 码 中 引用 
>>> indices char = dict((i, c) 
for i, c in enumerate (chars)) < 
>>> 'corpus length: {} total chars: {}'.format (len(text), len(chars)) 


'corpus length: 375542 total chars: 50" 
把 一 个 独 热 编 码 解释 回 字符 
时 ， 建 立 一 个 反 向 查找 























它们 的 格式 也 很 不 错 : 


>>> print (text[3500]) 
[the tragedie of julius caesar by william shakespeare 1599] 


actus primus. scoena prima. 
enter flauius, murellus, and certaine commoners ouer the stage. 


flauius. hence: home you idle creatures, get you home : 
is this a holiday? what, know you not 
(being mechanicall) you ought not walke 
vpon a labouring day, without the signe 
of your profession? speake, what trade art thou? 
car. why sir, a carpenter 
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mur. where is thy leather apron and thy rule? 
what dost thou with thy best apparrell on 


接 下 来 ， 我 们 将 把 原始 文本 分 成 数据 样本 ， 每 个 样本 都 有 固定 的 maxlen 个 字符 。 为 了 增 
Keras 示例 过 采样 了 数据 并 细 分 为 半 宛 余 块 。 从 


开头 处 取 40 个 字符 ， 从 开头 移 到 第 3 个 字符 ， 从 那里 取 40 个 字符 ， 移 到 第 6 个 字符 …… 以 此 
类 推 。 


请 记 住 ， 这 个 模型 的 目标 是 在 给 定 前 40 个 字符 的 情况 下 ， 学 习 预 测 任意 序列 中 的 第 41 个 
字符 。 因 此 , 我 们 将 构建 一 组 半 宛 余 序 丈 列 的 训 续集 , 每 个 序列 有 40 个 字符 长 , 如 代码 清单 9-25 
所 示 。 


代码 清单 9-25 ”组 装 一 个 训练 集 


现在 先 忽 略 句子 (和 行 ) 边界 , 这样 基 于 
字符 的 模型 就 会 学 习 什么 时 候 使 用 句点 














>>> maxlen = 40 ('') 或 换行 符 ("\n' ) 来 结束 一 个 句子 步 长 为 3 个 字符 ， 这 样 生成 的 
>>> step = 3 训练 样本 会 部 分 重 玻 ,但 不 会 
>>> sentences = [] 完全 相同 





>>> next chars = [] 





>>> for i in range(0, len(text) - maxlen, step): 
sentences.append (text[i: i + maxlen]) 

3 next_chars. phens exis + maxlen]) 加 人 
>>> print('nb sedquences:'，1len(sentences)) 收集 下 一 人 一 个 切片 
nb sequences: 125168 预期 字符 


所 以 我 们 拥有 125 168 个 训练 样本 和 在 它们 之 后 的 字符 ， 即 模型 的 目标 标签 ， 如 代码 清单 9-26 
所 示 。 





代码 清单 9-26 ”训练 样本 的 独 热 编码 


np.zeros((len(sentences), maxlen, lenl(chars)), dtype=np.bool) 

np.zeros((len(sentences), lenl(chars)), dtype=np.bool) 

>>> for i, sentence in enumerate (Sentences) : 

for t, char in enumerate (sentence): 
XxX[i, 七 char indices[char]] = 1 

yli, char indices[next chars[i]]] = 


然后 ， 在 数据 集中 对 每 个 样本 的 每 个 字符 进行 独 热 编码 ， 并 将 其 存储 在 列表 X 中 。 我 们 还 
会 将 独 热 编 码 的 “ 管 案 ” 存 储 在 列表 y 中 ， 然 后 构造 模型 ， 如 代码 清单 9-27 所 示 。 


业 


代码 清单 9-27 组装 一 个 基于 字符 的 LSTM 模型 来 生成 文本 





>>> from keras.models import Sequential 
>>> from keras.layers import Dense, Activation 














>>> from keras.layers import LSTM 我 们 使 用 更 宽 
>>> from keras.optimizers import RMSprop 升 至 128 层 。 并 且 我 们 不 返回 整个 序列 。 
>>> model = Sequential () 我 们 只 需要 最 后 一 个 输出 字符 


>>> model.add (LSTM (128, 
input_ shape= (maxlen, len (chars)))) 
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>>> model.add (Dense (len (chars))) 4 

>>> model.add (Activation('softmax')) 

>>> optimizer = RMSprop (lr=0.01) 

>>> model.compile (loss='categorical crossentropy', optimizer=optimizer) 

>>> model .summary () 

Layer (type) Output Shape Param # 

lstm 1 (LSTM) (None, 128) 91648 

dense 1 (Dense) (None, 50) 6450 

activation 1 (Activation) (None, 50) 0 

Total params: 98,098.0 这 是 一 个 分 类 问题 , 所 以 我 们 想 要 
Trainable params: 98,098.0 在 所 有 可 能 字符 上 的 概率 分 布 





Non-trainable params: 0.0 


这 和 之 前 看 起 来 有 些许 不 同 , 我 们 来 看 一 下 各 个 组 成 模块 。 我 们 熟知 的 Sequential 层 和 LSTM 
层 , 与 前 面 的 分 类 器 相同 。 在 本 例 中 ，LSTM 元 胞 隐藏 层 中 的 num _neuron 为 128。 虽 然 128 比 
分 类 器 中 使 用 的 要 多 很 多 , 但 是 我 们 是 在 试图 为 在 复 现 给 定 文 本 的 音调 中 更 复杂 的 行为 进行 建 
模 。 然 后 ,优化 器 是 通过 一 个 变量 定义 的 , 但 这 也 是 到 目前 为 止 我 们 一 直 使 用 的 。 因 为 学 习 率 参 
数 从 其 默认 值 (0.001 ) 调整 为 现在 的 值 ， 所 以 为 了 便于 阅读 ， 这 里 将 其 分 开 。 值 得 注意 的 是 ， 
RMSProp 的 工作 原理 是 通过 使 用 “该 权重 最 近 梯 度 大 小 的 平均 值 ”, 来 调整 学 习 率 以 更 新 各 个 权 
重 。 阅读 关于 优化 器 的 书籍 可 以 为 我 们 在 实验 中 省 去 一 些 麻 烦 , 具体 各 个 优化 器 的 详细 信息 超出 
了 本 书 的 范围 ， 这 里 不 再 袭 述 。 

下 一 个 不 同 之 处 是 我 们 试图 最 小 化 的 损失 函数 。 到 目前 为 止 ， 它 一 直 是 binary_crossentropy。 
我 们 只 需要 确定 单个 神经 元 的 阔 值 。 但 是 在 这 里 ， 我 们 已 经 将 最 后 一 层 中 的 Dense (1) 替换 为 
Dense (len (chars))。 因此, 网络 在 每 个 时 刻 的 输出 将 是 一 个 50 维 的 向 量 (len (chars) == 
50 ， 如 代码 清单 9-20 所 示 )。 我 们 将 使 用 softmax 作为 激活 函数 ， 因 此 输出 向 量 将 等 效 为 整个 
50 维 向 量 上 的 概率 分 布 ( 该 向 量 中 的 值 之 和 总 是 为 1 )。 使 用 categorical crossentropy 
试图 使 结果 的 概率 分 布 与 独 热 编码 预期 字符 之 间 的 差异 最 小 化 。 

最 后 一 个 主要 的 变化 是 没有 dropout。 因 为 我 们 要 对 这 个 数据 集 进行 特定 的 建 模 ， 而 没有 兴 
趣 将 其 推广 到 其 他 问题 ， 所 以 过 拟 合 不 仅 是 可 以 的 ， 还 是 理想 的 。 具 体 做 法 参见 代码 清单 9-28。 




































































代码 清单 9-28 ”训练 一 个 莎士比亚 风格 的 聊天 机 器 人 





这 是 一 种 训练 模型 、 保 存 模 























>>> epochs = 6 型 状态 、 继 续 训 练 的 一 种 方 
>>> batch size = 128 法 。Keras 内 置 了 回调 函数 ， 
>>> model structure = model.to json() 在 调用 时 可 以 执行 类 似 的 
>>> with open("shakes lstm model.json", "“w") as json file: 任务 

> json file.write (model structure) 

>>> for i in range(5): 4 





model.fit (Xx, y, 
batch size=batch size, 
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epochs=epochs) 





3 model.save weights ("shake lstm weights {}.h5".format (i+1)) 
Epoch 1/6 

125168/125168 [==============================] - 266s - loss: 2.0310 
Epoch 2/6 

125168/125168 [==============================] - 257s - loss: 1.6851 


这 里 设置 每 隔 6 个 训练 周期 保存 模型 一 次 ， 并 继续 训练 。 如 果 它 的 损失 不 再 减少 ,就 不 需要 
继续 训练 , 那么 我 们 可 以 安全 地 停止 这 个 过 程 ， 并 在 之 前 的 几 个 训练 周期 里 保存 好 权重 集 。 我 们 
发 现 需要 20 ~ 30 个 训练 周期 才能 从 这 个 数据 集中 获得 还 不 错 的 结果 。 我 们 可 以 查看 扩展 数据 集 。 
莎士比亚 的 作品 是 可 以 公开 获取 的 。 如 果 大 家 是 从 不 同 的 来 源 获 得 , 则 需要 通过 适当 的 预 处 理 来 
确保 作品 的 一 致 性 。 幸 运 的 是 , 基于 字符 的 模型 不 必 担 心 分 词 器 和 分 句 带 的 不 一 致 , 但 是 保持 字 
符 一 致 性 的 方法 选择 会 很 重要 。 我 们 的 方法 或 许 有 些 粗糙 , 假如 能 使 用 更 加 精巧 的 方法 , 或 许 我 
们 能 发 现 更 好 的 结果 。 

我 们 自己 来 制作 剧本 吧 ! 因为 输出 向 量 是 描述 50 个 可 能 的 输出 字符 上 的 概率 分 布 的 50 维 向 量 ， 
所 以 我 们 可 以 从 该 分 布 中 采样 。Keras 示例 有 一 个 辅助 函数 来 完成 这 一 任务 ， 如 代码 清单 9-29 所 示 。 




































































代码 清单 9-29 产生 字符 序列 的 采样 器 





>>> import random 

>>> def sample (preds, temperature=1.0): 
preds = np.asarray (preds) .astype ('float64') 
preds = np.log(preds) / temperature 
exp_preds = np.exp (preds) 
preds = exp_preds / np.suml(exp preds) 
probas = np.random.multinomial (1, preds, 1) 
return np.argmax (probas) 


由 于 网 络 的 最 后 一 层 是 softmax， 因 此 输出 向 量 将 是 网 络 所 有 可 能 输出 的 概率 分 布 。 通 过 
查看 输出 向 量 中 的 最 大 值 , 我 们 可 以 看 到 网 络 认 为 出 现 概率 最 高 的 下 一 个 字符 。 用 更 清楚 的 话 来 
说 ,输出 向 量 最 大 值 的 索引 ( 该 值 介 于 0 和 1 之 间 ) 将 与 预期 词 条 的 独 热 编码 的 索引 相关 联 。 

但 是 在 这 里 , 我 们 并 不 是 要 精确 地 重新 创建 输入 文本 , 而 是 要 重新 创建 接 下 来 可 能 出 现 的 文 
本 。 就 像 在 马尔 可 夫 链 中 一 样 ， 下 一 个 词 条 是 根据 下 一 个 词 条 的 概率 随机 选择 的 ， 而 不 是 最 常 出 
现 的 下 一 个 词 条 。 

log 函数 除 以 tempezrature 的 效果 是 使 概率 分 布 变 平 (temperature > 1 ) 或 变 尖 
(temperature < 1 )。 因 此 , 小 于 1 的 temperature (或 称 调用 参数 中 的 多 样 性 ) 倾向 于 试 
图 更 严格 地 重新 创建 原始 文本 。 而 大 于 1 的 temperature 会 产生 更 多 样 化 的 结果 , 但 是 随 着 分 
布 变 平 ， 学 习 到 的 模式 开始 被 遗忘 ， 我 们 就 会 回 到 明言 乱 语 的 状态 。 多 样 性 越 高 就 会 越 有 趣 。 

numpy 随机 函数 multinomial (num samples，Probapbility list，size) 将 从 分 布 
中 生成 num samples 个 样本 ， 其 可 能 的 结果 由 probabilities 1ist 描述 , 它 将 输出 一 个 
长 度 为 size 的 列表 , 该 列表 等 于 实验 运行 的 次 数 。 在 这 种 情况 下 ， 我们 只 从 概率 分 布 中 抽取 一 
次 ,我 们 只 需要 一 个 样本 。 
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当 我 们 进行 预测 时 ，Keras 示例 有 一 个 遍历 各 种 不 同 的 temperature 值 的 循环 ， 因 此 每 个 预测 都 
将 看 到 一 系列 不 同 的 输出 ， 而 这 些 输出 基于 sample 函数 从 概率 分 布 进行 采样 所 使 用 的 temperature 


值 。 具 体 做 法 参见 代码 清单 9-30。 


代码 清单 9-30 ”使 用 3 种 多 样 化 等 级 产生 3 种 类 型 文本 


>>> import sys 
>>> start index = random.randint (0, len(text) - maxlen - 1) 
> EOErQrversity rt 02 088. TsO]: 
print() 
oh ei oN eh diversity:', diversity) 
generated = "" 
sentence = text[start index: start index + maxlen] 
generated += sentence 





briinit( Sess Generating with seed: "' + Sentence + '"') 

SYS.s Stdoub WETte (generated) 我 们 为 训练 的 网 络 创建 
for i in range (400): 一 个 输入 ( seed )， 看 看 
x = np.zeros((1, maxlen, len (chars))) A 4 

人 ht 
for t, char in enumerate (Sentence) : 已 会 输出 什么 字符 
x[0, t, char indices[char]] = 1. 
preds = model.predict (x, verbose=0) [0] “| 模型 作出 预测 
next index = sample (preds, diversity) 三 项 让 
next char = indices charlnext index] 


generated += next _ char 








Pe 





( seed ) 








sys.stdout.flush () 
print() 刷新 内 部 缓冲 区 的 结果 到 控 
制 台 ， 以 便 立即 看 到 输出 的 


字符 





变 。 这 是 下 一 


查找 该 索引 表示 的 字符 


起 = Uo 下 t_ch 
ee 将 它 加 入 输入 序列 中 ， 并 出 
< 除 第 一 个 字符 以 保持 长 度 不 


次 预测 的 输入 


(为 简 少 起见， 上 述 示例 中 删除 了 diversity 等 于 1.2 的 情况 ， 大 家 也 可 以 添加 回去 ， 并 对 输出 


进行 处 理 。) 


从 源 文 本 中 提取 40 (maxlen ) 个 字符 的 随机 块 ， 并 预测 接 下 来 会 出 现 什么 字符 。 然 后 将 预 
测 的 字符 追加 到 输入 句子 中 ， 删 除 第 一 个 字符 ， 并 将 这 40 个 字符 作为 新 的 输入 再 次 预测 。 





国王 的 玫 和 全 A 抽 全 人 丽人 条 和 全 仙人 函数 ， 以 便 字 











符 即 刻 进入 控 


每 次 


制 台 。 





如 果 预 测 的 字符 恰好 是 一 个 换行 符 , 那么 这 一 行 的 文本 就 结束 了 , 但 是 生成 器 将 继续 工作 ,从 它 


刚刚 输出 的 前 40 个 字符 预测 下 一 行 。 
我 们 会 得 到 像 下 面 这 样 的 结 


= diversity: 0.2 
二 二 Generating with seedq: " them through & through 
the most fond an™ 
them through & through 
the most fond and stranger the straite to the straite 
him a father the world, and the straite: 
the straite is the straite to the common'd, 
and the truth, and the truth, and the capitoll, 
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and stay the compurse of the true then the dead and the Coloursy 
and the comparyed the straite the straite 

the mildiaus, and the straite of the bones, 

and what is the common the bell to the straite 

the straite in the commised and 


二 二 二 diversity: 0.5 

三 Generating with seed: " them through & through 

the most fond an" 

them through & through 

the most fond and the pindage it at them for 

that i shall pround-be be the house, not that we be not the selfe, 
and thri's the bate and the perpaine, to depart of the father now 
but ore night in a laid of the haid, and there is it 


bru. what shall greefe vndernight of it 


cassi. what shall the straite, and perfire the peace, 
and defear'd and soule me to me a ration, 
and we will steele the words them with th 


= diversity: 1.0 

一 一 一 一 一 Generating with seed: " them through & through 
the most fond an" 

them through & through 

the most fond and boy'd report alone 


yp. it best we will st of me at that come sleepe. 
but you yet it enemy wrong "twas sir 


ham. the pirey too me, it let you? 

son. oh a do a sorrall you. that makino 
beendumons vp?x, let vs cassa, 
yet his miltrow addome knowlmy in his windher, 
a vertues. hoie sleepe, or strong a strong at it 
mades manish swill about a time shall trages, 
and follow. more. heere shall abo 


diversity 为 0.2 和 0.5 的 情况 下 生成 的 文本 乍 一 看 都 有 点 儿 像 莎士比亚 的 作品 。 而 diversity 





























为 1.0( 对 于 给 定数 据 集 ) 时 生成 的 文本 很 快 就 开始 偏离 正轨 ,但 是 请 注意 一 些 基本 结构 仍然 会 
出 现 ， 如 换行 符 后 面 跟 着 字符 的 缩写 名 称 。 总 而 言 之 ， 对 一 个 相对 简单 的 模型 来 说 结果 还 不 坏 ， 
而 且 在 基于 某 种 风格 生成 的 文本 中 ,我们 也 获得 了 一 些 乐趣 。 


文本 生成 器 的 增强 方法 












































ll 





如 果 我 们 希望 生成 模型 不 只 是 为 了 消 遗 ， 可 以 做 些 什么 来 使 它 变 得 更 
图 ”增加 语料库 的 数量 并 提高 质量 ， 

国 ”增加 模型 的 复杂 度 ( 神经 元 的 数量 ); 

加 ”实现 一 个 更 精细 的 字符 一 致 性 的 算法 ; 

加 ”句子 分 段 ; 


致 性 和 更 有 用 呢 ? 
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根据 需要 在 语法 、 拼 写 和 语气 上 添加 过 滤器 ; 

生成 比 实际 展示 给 用 户 更 多 的 一 些 结果 案例 ; 

使 用 在 会 话 上 下 文中 选择 的 种 子 文本 引导 聊天 机 器 人 转向 有 用 的 主题 ; 

在 每 一 轮 对 话 中 使 用 多 个 不 同 的 种 子 文本 来 探索 聊天 机 器 人 擅长 谈论 什么 领域 的 话题 以 及 用 户 
认为 哪些 内 容 会 有 帮助 。 

要 获得 更 多 信息 请 参见 图 1-4。 也 许 现在 比 第 一 次 看 的 时 候 更 有 意义 。 
















































































9.1.8 ”文本 生成 的 问题 : 内 容 不 受 控 


因此 , 我 们 仅仅 基于 示例 文本 来 生成 新 文本 , 并 且 我 们 还 可 以 学 习 如 何 从 示例 文本 中 提取 出 
其 写作 风格 。 但 是 , 我 们 却 无 法 控制 生成 的 文本 内 容 ,这 有 点 儿 反 直觉 。 上 下 文 内 容 受 限于 原始 
数据 ， 如 果 没 有 其 他 内 容 ， 那么 将 会 限制 模型 的 词汇 量 。 但 是 ， 如 果 给 定 一 个 输入 ,我 们 就 可 以 
按照 我 们 认为 原作 者 或 作者 可 能 会 说 的 话 进行 训练 。 大 家 从 这 种 模型 中 能 够 真正 期 待 的 最 好 结 
是 他 们 的 说 话 方式 ， 特 别 是 他 们 怎样 从 一 个 种 子 句 ( seed sentence ) 开始 把 话说 完 。 这 个 种 子 句 
不 一 定 要 来 自 训练 文本 本 身 。 因 为 这 个 模型 是 针对 字符 进行 训练 的 , 所 以 我 们 可 以 使 用 全 新 的 词 
作为 种 子 〈seed )， 并 获得 有 趣 的 结果 。 现 在 ， 我 们 有 了 一 个 有 趣 的 聊天 机 器 人 的 素材 ， 但 是 要 
让 机 器 人 以 某 种 风格 说 出 一 些 具 有 实质 意义 的 东西 ， 我 们 必须 等 到 下 一 章 。 























9.1.9 其 他 记忆 机 制 


LSTM 是 循环 神经 网 络 基 本 概念 的 一 种 扩展 , 同样 也 存在 其 他 各 种 形式 的 扩展 。 所 有 这 些 扩 
展 无 外 平 都 是 对 元 胞 内 门 的 数量 或 运算 的 一 些微 调 。 例如 , 门 控 循 环 单元 将 遗忘 门 和 候选 门 中 的 
候选 选择 分 支 组 合成 一 个 更 新 门 。 这 个 门 减少 了 需要 学 习 的 参数 数量 , 并 且 已 经 被 证 实 可 以 与 标 
准 LSTM 相 媲 美 ， 同 时 计算 开销 也 要 小 得 多 。Keras 提供 了 一 个 GRU 层 , 我 们 可 以 像 使 用 LSTM 
一 样 使 用 它 ， 如 代码 清单 9-31 所 示 。 





























代码 清单 9-31 Keras 中 的 门 控 循环 单元 





>>> from keras.models import Sequential 

>>> from keras.layers import GRU 

>>> model = Sequential () 

>>> model.add (GRU (num neurons, return sequences=True, 
input_ shape=X[0] .shape)) 


另 一 种 技术 是 使 用 具有 窥视 孔 (peephole ) 连接 的 LSTM。Keras 没有 直接 实现 的 代码 ,但 是 
网 上 的 几 个 示例 通过 扩展 Keras 的 LSTM 类 来 实现 这 一 点 。 其 思想 是 ， 标 准 LSTM 元 胞 中 的 每 个 
门 都 可 以 直接 访问 当前 记忆 状态 ， 并 将 其 作为 输入 的 一 部 分 。 如 论文 “Leaming Precise Timing with 
LSTM Recurrent Network” 所 述 ， 所 有 的 门 包 含 与 记忆 状态 相同 维度 的 额外 权重 。 然 后 ， 每 个 门 
的 输入 是 该 时 刻 元 胞 的 输入 、 前 一 个 时 刻 元 胞 的 输出 和 记忆 状态 本 身 的 拼接 。 上 述 论文 的 作者 发 
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现 ， 在 时 间 序 列 数据 中 ， 这 使 得 为 时 间 序 列 事件 建 模 更 加 精确 。 虽 然 他 们 并 没有 专门 在 NLP 领 
域 工 作 , 但 是 这 个 概念 在 这 里 也 是 有 效 的 ,我们 把 它 留 给 读者 去 试验 。 

这 只 是 RNN/LSTM 的 两 个 入 生 模 型 。 这 方面 的 研究 一 直 在 持续 中 ， 我 们 希望 大 家 也 能 享受 
这 其 中 的 乐趣 。 这 些 工具 都 是 现成 的 ， 所 以 人 人 都 有 可 能 找到 下 一 代 最 新 的 、 最 好 的 模型 。 











9.1.10 ”更 深 的 网 络 


将 记忆 单元 看 作 是 对 名 词 /动词 对 或 句子 与 句子 之 间 动 词 时 态 引用 的 特定 表示 进行 编码 非常 
方便 , 但 这 并 不 是 实际 发 生 的 事情 。 假设 训练 顺利 的 话 ， 这 不 过 刚好 是 网 络 学 习 的 语言 模式 的 一 
个 副产品 。 与 所 有 神经 网 络 一 样 ,分 层 允许 模型 在 训练 数据 中 形成 更 复杂 的 模式 表示 。 我 们 也 可 
以 轻松 地 堆 受 LSTM 层 (如 图 9-13 所 示 )。 











堆 径 的 LSTM 
1=0 {=1 1=2 








每 个 LSTM 层 都 是 一 个 具有 自己 的 门 和 状态 向 量 的 元 胞 
图 9-13 ”堆肥 的 LSTM 

训练 堆 和 琶 层 在 计算 上 代价 非常 高 昂 ,， 但 在 Keras 中 把 它们 堆 又 起 来 只 需 几 秒 。 具 体 做 法 参见 
代码 清单 9-32。 





代码 清单 9-32 两 层 LSTM 





>>> from keras.models import Sequential 

>>> from keras.layers import LSTM 

>>> model = Sequential () 

>>> model.add (LSTM (num neurons, return sequences=True, 
了 input_ shape=X[0] .shape) ) 

>>> model.add (LSTM (num neurons 2, return sequences=True)) 
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注意 ， 假 如 要 正确 构建 模型 ， 需 要 在 第 一 层 和 中 间 层 使 用 参数 return_sequences=True。 
这 个 要 求 是 有 意义 的 ， 因 为 每 个 时 刻 的 输出 都 需要 作为 下 一 层 时 刻 的 输入 。 
但 是 , 请 记 住 , 创建 一 个 能 够 表示 比 训练 数据 中 存在 的 更 复杂 的 关系 的 模型 可 能 会 导致 奇怪 
的 结果 。 简 单 地 在 模型 上 县 加 层 ， 虽 然 很 有 趣 ， 但 很 少 是 构建 最 有 用 的 模型 的 解决 方案 。 

























































































9.2 小结 
国 使 用 记忆 单元 记忆 信息 使 序列 的 模型 更 加 精确 和 通用 。 
图 ”忘记 无 关 信息 很 重要 。 
加 ”对 于 即将 到 来 的 输入 ， 只 需 保留 部 分 新 信息 ， 而 LSTM 可 以 通过 训练 找到 它 。 
国 ”如果 能 预测 接 下 来 会 是 什么 词 ， 就 能 从 概率 分 布 中 生成 全 新 的 文本 。 
国 ” 基 于 字符 的 模型 比 基 于 词 的 模型 可 以 更 有 效 、 更 成 功 地 从 小 型 的 、 风 格 集中 的 语料库 中 


学 习 。 


量 LSTM 思想 向 量 可 以 捕捉 的 远 远 不 止 是 句子 中 词 之 和 。 
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本 章 主要 内 容 

图 用 神经 网 络 将 一 个 文本 序列 映射 到 另 一 个 序列 

图 理解 序列 到 序列 的 任务 ， 以 及 它们 与 我 们 学 习 的 其 他 任务 有 何不 同 
图 使 用 编码 -解码 模型 架构 进行 翻译 和 聊天 

图 训练 模型 注意 序列 中 什么 是 重要 的 





现在 , 我 们 知道 了 如 何 建立 自然 语言 模型 ,并 将 其 应 用 于 从 情感 分 类 到 新 文本 生成 的 各 个 方 
面 ( 见 第 9 章 ) 
神经 网 络 能 将 英语 翻译 成 德语 吗 ? 甚至 更 进一步 ， 是 否 有 可 能 通过 将 基因 型 转化 为 表现 型 
( 如 将 基因 转化 为 体型 ) 来 预测 疾病 ? 还 有 从 本 书 的 开头 我 们 就 一 直 在 谈论 的 聊天 机 器 人 呢 ? 神 
经 网 络 能 进行 有 趣 的 对 话 吗 ? 以 上 这 些 都 是 序列 到 序列 ( sequence-to-sequence ) 的 问题 。 它 们 将 
一 个 长 度 不 确定 的 序列 映射 到 另 一 个 长 度 也 未 知 的 序列 。 

在 本 章 中 , 我 们 将 学 习 如 何 使 用 编码 -解码 架构 ( encoder-decoder architecture ) 构建 序列 到 序 
列 的 模型 。 


















































10.1 编码 -解码 架构 


大 家 认为 我 们 之 前 的 哪些 架构 对 序列 到 序列 的 问题 可 能 有 用 呢 ? 是 第 6 章 的 词 向 量 脱 入 模型 ， 
是 第 7 章 的 卷 积 网 络 , 还 是 第 8 章 和 第 9 章 的 循环 网 络 ? 你 猜 对 了 。 我 们 将 在 上 一 章 的 LSTM 结 
构 的 基础 上 进行 构建 。 

LSTM 非常 擅长 处 理 序列 , 但 是 我 们 需要 一 对 而 不 是 一 个 LSTM。 我 们 将 构建 一 个 模块 化 的 
架构 ， 称 为 编码 -解码 架构 。 

码 -解码 架构 的 前 半 部 分 是 序列 编码 器 ， 该 网 络 将 序列 ( 如 自然 语言 文本 ) 转换 为 较 
低 维 的 表示 形式 ( 如 第 9 章 末 尾 的 思想 向 量 )。 这 样 我 们 就 已 经 构建 了 序列 到 序列 模型 的 前 半 
部 分 。 
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潍 


码 -解码 架构 的 后 半 部 分 是 序列 解码 器 。 序 列 解码 器 设计 成 将 向 量 重新 转换 回 人 类 可 读 的 
文本 。 但 我 们 不 是 已 经 这 样 做 了 吗 ? 我 们 在 第 9 章 末 尾 已 经 生成 了 一 些 神奇 的 莎士比亚 风格 的 剧 
本 。 这 已 经 很 接近 了 , 但 是 我 们 还 需要 添加 一 部 分 内 容 来 让 这 个 莎士比亚 风格 的 剧 作 家 机 器 人 专 
注 于 作为 翻译 家 的 新 任务 。 

例如 , 我 们 可 能 希望 模型 输入 英语 文本 并 翻译 输出 德语 文本 。 实 际 上 ， 这 不 就 像 让 我 们 的 莎 
士 比 亚 机 器 人 把 现代 英语 翻译 成 莎士比亚 风格 的 作品 吗 ? 是 的 , 但 在 莎士比亚 的 例子 中 , 我 们 可 
以 撕 虎 子 , 让 机 器 学 习 算法 选择 与 它 学 到 的 概率 分 布匹 配 的 词 。 但 是 对 于 翻译 任务 ， 即 使 对 于 一 
个 还 算 不 错 的 剧 作家 机 需 人 ， 这 些 也 还 不 够 。 

我 们 已 经 知道 如 何 建立 编码 器 和 解码 器 ,现在 我 们 需要 学 习 如 何 让 它们 变 得 更 好 ， 目 标 更 明确 。 
事实 上 , 第 9 章 中 的 LSTM 作为 可 变 长 度 文本 的 编码 器 非常 有 效 。 我 们 构建 它们 是 为 了 捕捉 自然 语 
言 文本 的 语意 和 情感 。LSTM 通过 内 部 表示 ( 一 个 思想 向 量 ) 捕获 了 这 个 含义 。 我 们 只 需要 从 LSTM 
模型 中 的 状态 〈 记 忆 元 胞 ) 里 提取 该 思想 向 量 。 我 们 了 解 了 在 Keras 的 LSTM 模型 中 设置 
return state=True, 以 便 输出 包含 隐藏 层 状 态 。 这 个 状态 向 量 成 为 编码 器 的 输出 和 解码 器 的 全 


提示 。 当 我 们 训练 任何 一 个 神经 网 络 模 型 时 , 每 一 个 内 部 网 络 层 都 包含 了 所 有 我 们 需要 通过 训练 解 
决 的 问题 的 信息 。 该 信息 通常 由 一 个 固定 维度 的 张 量 表示 ,该 张 量 包 含 该 层 的 权重 或 激活 函数 。 如 
果 我 们 的 网 络 能 够 很 好 地 概括 所 有 信息 ,就 可 以 确定 会 存在 着 一 个 信息 瓶颈 一 一 一 个 维度 数量 最 少 
的 层 。 在 Word2vec ( 见 第 6 章 ) 中 ,使 用 内 部 网 络 层 的 权重 来 计算 向 量 表示 。 我 们 还 可 以 直接 使 
用 内 部 网 络 层 的 激活 函数 。 这 就 是 本 章 的 示例 所 做 的 。 检 查 我 们 过 去 构建 成 功 的 网 络 ， 看 看 是 否 可 
以 找到 这 个 信息 瓶颈 ， 它 可 以 用 作 我 们 数据 的 编码 表示 。 


所 以 剩 下 的 工作 就 是 改进 解码 名 的 设计 。 我 们 需要 把 思想 向 量 解码 回 自然 语言 序列 。 





























































































































10.1.1 解码 思想 


假设 我 们 想 要 研发 一 个 翻译 模型 将 文本 从 英语 翻译 成 德语 ,我 们 希望 将 字符 序列 或 词 序列 映 
射 到 另 一 个 字符 序列 或 词 序列 。 我 们 之 前 已 经 学 习 如 何 根据 时 刻 六 1 的 元 素 预测 时 刻 上 的 序列 元 
素 , 但 是 直接 使 用 LSTM 将 一 种 语言 映射 到 另 一 种 语言 很 快 就 会 遇 到 问题 。 对 于 单个 LSTM , 我 
们 需要 输入 序列 和 输出 序列 具有 相同 的 序列 长 度 ， 而 对 于 翻译 任务 这 种 情况 往往 很 少 。 

图 10-1 展示 了 这 个 问题 。 英 语 和 德语 句子 长 度 不 同 ， 这 使 得 英语 输入 和 预期 输出 之 间 的 映 
射 更 加 复杂 。 英 语 短 语 “is playing”( 现在 进行 时 ) 被 翻译 成 德语 的 现在 时 态 “spielt”。 但 是 ， 这 
里 的 “spielt” 只 能 根据 输入 “is” 进 行 预 测 ， 而 我 们 在 这 个 时 刻 还 没有 输入 “playing”。 下 一 步 ， 
“playing” 会 被 映射 为 “FuBball”"。 当 然 ， 网 络 可 以 学 习 这 些 映 射 ,但 学 到 的 表示 只 能 针对 特定 的 
输入 ， 这 样 获 得 一 个 更 通用 的 语言 模型 对 我 们 来 说 就 是 一 纸 空 文 了 。 

序列 到 序列 网 络 架 构 ， 有 时 缩写 为 seq2seq， 通 过 创建 一 个 思想 向 量 形式 的 输入 表示 来 解除 
这 个 限制 。 然 后， 序列 到 序列 模型 使 用 该 思想 向 量 (有 时 称 为 上 下 文 向 量 ) 作为 第 二 个 网 络 的 起 
点 ， 第 二 个 网 络 接 收 不 同 的 输入 集 来 生成 输出 序列 。 
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预期 输出 是 样本 中 的 下 一 个 词 条 。 这 里 显示 的 是 词 级 别 





隐藏 层 








图 10-1 语言 建 模 的 限制 














思想 向 量 还 记得 发 现 词 向 量 的 时 候 吗 ? 词 向 量 是 将 词 的 意义 压缩 成 一 个 固定 长 度 的 向 量 。 在 这 个 
词义 向 量 空间 中 ， 具 有 相似 意义 的 词 是 相互 接近 的 。 思 想 向 量 的 思想 与 其 非常 类 似 。 神 经 网 络 可 以 
将 任何 自然 语言 语句 中 的 信息 (不 只 是 单个 词 ) 压缩 成 一 个 固定 长 度 的 向 量 来 表示 输入 文本 的 内 容 。 
思想 向 量 就 是 这 个 向 量 。 它 们 被 用 作文 档 中 思想 的 数值 表示 ， 以 运行 一 些 解码 器 模型 ,通常 是 翻译 
解码 器 。 思 想 向 量 这 个 术语 是 Geoffrey Hinton 于 2015 年 在 伦敦 接受 英国 皇家 学 会 (Royal Society ) 
采访 时 创造 的 。 


序列 到 序列 网 络 由 两 个 模块 化 的 循环 网 络 组 成 ， 它 们 之 间 有 一 个 思想 向 量 ( 如 图 10-2 所 示 )。 
编码 器 在 其 输入 序列 的 末尾 输出 一 个 思想 向 量 。 解 码 器 接收 这 个 向 量 并 输出 一 个 词 条 序列 。 





























1=0 1=1 1=2 1=3 
输入 : 英语 Maria is playing SOCCeT 
目标 : 德语 Maria Spielt ? FuBball ? ? 
图 10-2 思想 向 量 “ 夹 心 ” 的 编码 -解码 “三 明治 ” 








第 一 个 网 络 , 称 为 编码 器 , 将 输入 文本 ( 如 用 户 向 聊天 机 器 人 发 送 的 消息 ) 转换 为 思想 向 量 。 
思想 向 量 有 两 部 分 ， 每 一 部 分 都 是 一 个 向 量 : 编码 器 隐藏 层 的 输出 (经 过 了 激活 函数 ) 和 这 个 输 
人 样本 LSTM 元 胞 的 记忆 状态 。 
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提示 “如 代码 清单 10-1 所 示 ， 在 名 为 state_h (隐藏 层 的 输出 ) 和 state_c( 记 忆 状 态 ) 的 变量 
中 我 们 捕获 了 思想 向 量 。 


然后 思想 向 量 成 为 第 二 个 网 络 即 解码 器 网 络 的 输入 。 我 们 将 在 稍 后 的 代码 实现 部 分 中 看 到 ， 
生成 的 状态 ( 思想 向 量 ) 将 作为 解码 器 网 络 的 初始 状态 (initial state )。 然 后 ， 第 二 个 网 络 使 用 初 
始 状态 和 一 种 特殊 的 输入 : 初始 词 条 ( start token )。 有 了 这 些 信息 ， 第 二 个 网 络 就 能 学 习 生 成 目 
标 序列 的 第 一 个 元 素 ( 如 字符 或 词 )。 

在 这 种 特殊 的 结构 中 ， 训 练 阶段 和 推理 阶段 的 处 理 是 不 同 的 。 在 训练 期 间 ， 我 们 将 初始 文 
本 传递 给 编码 器 ， 并 将 预期 的 文本 作为 输入 传递 给 解码 器 。 我 们 让 解码 器 网 络 学 习 ， 在 给 定 
初始 状态 和 “开始 ”按键 的 情况 下 ， 它 就 可 以 生成 一 系列 词 条 。 解 码 器 的 第 一 个 输入 是 初始 
词 条 ， 第 二 个 输入 应 该 是 第 一 个 预期 的 或 要 被 预测 的 词 条 ， 它 会 反 过 来 促使 网 络 生成 第 二 个 
预期 的 词 条 。 

然而 ,在 推理 阶段 ,我 们 没有 预期 的 文本 ,那么 除 状 态 之 外 ,我们 使 用 什么 来 传递 给 解码 器 
呢 ? 我 们 使 用 通用 的 初始 词 条 , 然后 使 用 第 一 个 生成 的 元 素 , 该 元 素 将 在 下 一 时 刻 成 为 解码 器 的 
输入 ， 以 生成 下 一 个 元 素 ， 以 此 类 推 。 这 个 过 程 重复 进行 ， 直 到 达到 序列 元 素 的 最 大 数量 ， 或 者 
生成 一 个 终止 词 条 。 

通过 这 种 端 到 端 (end-to-end ) 训练 ， 解 码 咒 将 把 一 个 思想 向 量 转换 为 对 初始 输入 序列 〈 如 
用 户 问题 ) 的 全 解码 回复 。 将 解决 方案 分 割 成 两 个 网 络 ， 其 中 思想 向 量 作 为 结合 组 件 ( 绑 定 两 个 
网 络 )， 允 许 我 们 将 输入 序列 映射 到 不 同 长 度 的 输出 序列 ( 如 图 10-3 所 示 )。 













































































输入 序列 编码 器 


思想 向 量 


图 10-3 ”展开 编码 -解码 架构 























10.1.2 似曾相识? 


大 家 以 前 可 能 见 过 编码 -解码 方法 。 自 编码 器 对 学 习 神 经 网 络 而 言 是 一 种 常见 的 编码 -解码 架 
构 。 它 们 是 一 种 重复 博弈 〈repeat-game-playing ) 的 神经 网 络 ， 经 过 训练 ， 能 够 将 输入 信息 反刍 
出 来 ， 这 使 得 寻找 训练 数据 变 得 很 容易 ， 几 乎 任何 一 组 高 维 张 量 、 向 量 或 序列 都 可 以 。 

与 任何 编码 -解码 架构 一 样 ， 自 编码 器 在 编码 器 和 解码 器 之 间 存 在 信息 瓶 贷 ， 我 们 将 其 用 作 
输入 数据 的 低 维 表示 。 任 何 具有 信息 瓶 贷 的 网 络 都 可 以 在 编码 -解码 架构 中 用 作 编 码 器 ， 即 使 该 
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网 络 只 接受 了 改写 或 重复 表述 输入 的 训练 。 

虽然 自 编 码 器 与 我 们 在 本 章 中 介绍 的 编码 器 -解码 器 (encoder-decoder ) 具有 相同 的 结构 , 但 
是 它们 是 为 不 同 的 任务 而 训练 的 。 自 编码 器 被 训练 来 寻找 输入 数据 的 向 量 表示 , 这 样 输入 就 可 以 
由 网 络 的 解码 需 以 最 小 的 误差 重 构 。 编 码 句 和 解码 需 互 为 伪 逆 过 程 (pseudo-inverses )。 该 网 络 的 
目的 是 找到 输入 数据 如 图 像 或 文本 ) 的 稠密 向 量 表示 ， 从 而 允许 解码 器 以 最 小 的 误差 重 构 它 。 
在 训练 阶段 ， 输 入 数据 和 预期 输出 是 相同 的 。 因 此 ， 如 果 目 标 是 找到 数据 的 稠密 向 量 表示 ， 而 不 
是 为 语言 翻译 生成 思想 向 量 或 为 给 定 的 问题 寻找 回复 一 一 那么 自 编 码 器 是 一 个 不 错 的 选择 。 

那么 第 6 章 中 的 PCA 和 +SNE 如 何 使 用 呢 ? 我 们 是 否 使 用 其 他 章节 中 用 于 可 视 化 向 量 的 skleazrn . 
decomposition.PCA 或 sklearn.manifold.TSNE? /SNE 模型 生成 一 个 种 人 作为 它 的 输 
出 ， 所 以 在 某 种 意义 上 ， 我们 可 以 把 它 看 作 一 个 编码 器 。PCA 也 是 一 样 。 然 而 ， 这 些 模型 是 无 
监督 的 ， 因此 它们 不 能 针对 特定 的 输出 或 任务 。 这 些 算法 主要 用 于 特征 提取 和 可 视 化 。 它 们 创建 
了 非常 紧密 的 瓶颈 以 输出 非常 低 维 的 向 量 〈 通 党 是 二 维 或 三 维 )。 它 们 不 是 设计 用 来 输出 任意 长 
度 的 序列 的 。 这 就 是 编码 器 的 全 部 。 我 们 已 经 了 解 到 ，LSTM 是 用 于 从 序列 中 提取 特性 和 能 入 的 
最 先进 技术 。 

注意 变 分 自 编码 器 是 自 编码 器 的 一 种 变 体 ， 用 于 训练 一 个 类 似 于 编码 -解码 架构 的 生成 器 。 变 分 
自 编码 器 产生 的 压缩 向 量 不 仅 是 输入 的 准确 表示 ,而且 是 满足 高 斯 分 布 的 。 这 样 ， 通 过 随机 选择 一 
个 种 子 向 量 并 将 其 输入 自 编码 器 后 半 部 分 的 解码 器 中 ， 就 可 以 更 容易 地 生成 一 个 新 的 输出 ”。 









































































































































































































































10.1.3 ”序列 到 序列 对 话 


大 家 可 能 还 不 清楚 对 话 引 擎 ( dialog engine/conversation ) 问题 与 机 右 翻 译 之 间 的 关系 ,但 它 
们 非常 相似 。 在 聊天 机 器 人 的 对 话 中 生成 回复 与 在 机 器 翻译 系统 中 生成 英语 语句 的 德语 翻译 没有 
什么 不 同 。 

翻译 和 对 话 任务 都 需要 模型 将 一 个 序列 映射 到 另 一 个 序列 。 将 英语 词 条 序列 映射 到 德语 序列 
非常 类 似 于 将 对 话 中 的 自然 语言 语句 映射 到 对 话 引擎 的 预期 回复 语句 。 我 们 可 以 把 机 器 翻译 引擎 想 
象 成 一 个 精神 分 裂 的 双语 对 话 引擎 ， 它 在 玩 一 个 幼稚 的 “回声 游戏 ”( echo game ) “， 用 英语 听 ， 
用 德语 回复 。 

但 是 ， 我 们 希望 我 们 的 机 器 人 有 合适 的 回复 ， 而 不 只 是 一 个 回音 室 。 因 此 ， 我 们 的 模型 
需要 引入 希望 聊天 机 器 人 谈论 的 领域 的 附加 信息 。 我 们 的 NLP 模型 需要 学 习 一 个 从 问题 到 回 
复 的 复杂 映射 ， 而 不 是 回声 或 翻译 ， 这 需要 更 多 的 训练 数据 和 更 高 维度 的 思想 向 量 ， 因 为 它 
必须 包含 对 话 引擎 需要 了 解 的 领域 的 所 有 信息 。 在 第 9 章 中 ,我 们 学 习 了 在 LSTM 模型 中 增 
加 思想 向 量 的 维 数 ， 可 以 增加 其 信息 容量 。 如 果 想 把 翻译 机 器 变 成 对 话机 器 ， 还 需要 获得 足 






























































QD Chandar 和 Lauly 等 人 研究 的 一 种 学 习 双 语词 表示 的 自 编码 方法 。 
@) 详 见 标题 为 “Variational Autoencoders Explained” 的 网 页 。 
@ 也 被 称 为 “repeat game”。 
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够 多 的 合适 数据 。 

给 定 一 组 词 条 , 我 们 可 以 训练 我 们 的 机 器 学 习 流 水 线 来 模拟 一 个 对 话 回复 序列 。 我 们 需要 足 
够 多 的 对 话语 句 对 和 在 思想 向 量 中 足够 大 的 信息 空间 来 理解 所 有 这 些 映射 ,一 旦 我 们 有 了 一 个 数 
据 集 ， 其 中 包含 了 足够 多 的 从 问题 到 回复 的 “翻译 ”对 ,我 们 就 可 以 使 用 和 机 器 翻译 相同 的 网 络 
来 训练 对 话 引 擎 。 

Keras 使 用 一 种 称 为 编码 -解码 模型 的 模块 化 架构 , 为 构建 序列 到 序列 网 络 提供 模块 。 它 提供 
了 一 个 API 来 访问 LSTM 网 络 的 所 有 内 部 组 件 ， 我 们 需要 这 些 组 件 来 解决 翻译 、 会 话 甚至 基因 
型 -表现 型 ( genotype-to-phenotype ) 的 问题 。 





























10.1.4 ”回顾 LSTM 





在 上 一 章 中 ,我 们 学 习 了 LSTM 如 何 为 循环 网 络 提供 一 种 方法 来 选择 性 地 记 住 和 遗忘 它们 在 
样本 文档 中 “看 到 ”的 词 条 模式 。 每 个 时 刻 的 输入 词 条 都 经 过 遗忘 门 和 更 新 门 , 乘 以 权重 和 掩 码 
(mask ), 然后 存储 在 记忆 元 胞 中 。 各 个 时 刻 ( 词 条 ) 的 网 络 输出 不 单单 由 输入 词 条 决定 ,而 是 由 
输入 词 条 和 记忆 单元 当前 的 状态 一 起 决定 。 

重要 的 是 ,， LSTM 在 文档 之 间 共 享 词 条 模式 识别 器 ， 因 为 遗忘 门 和 更 新 门 具 有 在 读 取 多 个 文 
档 后 训练 的 权重 。 因 此 ，LSTM 不 必 为 每 个 新 文档 重新 学 习 英 语 拼 写 和 语法 。 我 们 学 习 了 如 何 激 
活 存储 在 LSTM 记忆 元 胞 的 权重 中 的 这 些 词 条 模式 ,从 而 根据 一 些 种 子 词 条 预测 之 后 的 词 条 以 触 
发 序列 的 生成 (如 网 10-4 所 示 )。 








Maria is playing soccer 








<START> Maria Spielt FuBball 





Maria Spielt FuBball <END> 





图 10-4 ”预测 下 一 词 条 











通过 预测 一 个 个 的 词 条 , 我 们 可 以 根据 网 络 建 议 的 可 能 的 后 续 词 条 的 概率 分 布 来 选择 下 一 个 
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词 条 ， 从 而 生成 一 些 文本 。 虽然 说 不 上 完美 , 但 还 是 很 有 趣 。 但 我 们 不 仅仅 是 为 了 娱乐 ， 我们 还 
要 把 控 一 个 生成 模型 的 结 

Sutskever、Vinyals 和 Le 提出 了 一 种 方法 ,引入 第 二 个 LSTM 模型 ， 以 一 种 随机 性 更 弱 、 更 
可 控 的 方式 解码 记忆 元 胞 中 的 模式 "。 他 们 提出 使 用 LSTM 在 分 类 任务 中 创建 的 思想 向 量 ， 然 后 
使 用 生成 的 向 量 作为 输入 传递 给 第 二 个 完全 不 同 的 LSTM， 这 个 LSTM 只 试图 逐个 预测 各 个 词 
条 , 这 种 方法 提供 了 一 种 将 输入 序列 映射 到 一 个 截然 不 同 的 输出 序列 的 方法 。 我 们 来 看 看 它 是 如 
何 工 作 的 。 








10.2 组装 一 个 序列 到 序列 的 流水 线 


根据 前 几 章 的 知识 ， 我 们 已 经 掌握 了 组 装 一 个 序列 到 序列 的 机 器 学 习 流 水 线 所 需要 的 所 
有 组 件 。 








10.2.1 为 序列 到 序列 训练 准备 数据 集 


正如 之 前 在 卷 积 神经 网 络 或 循环 神经 网 络 实现 中 看 到 的 那样 , 我 们 需要 将 输入 数据 填充 为 固 
定 长 度 。 通常 ,我 们 需要 使 用 填充 词 条 扩展 输入 序列 , 使 其 与 最 长 的 输入 序列 匹配 。 在 序列 到 序 
列 网 络 的 情况 下 ,还 需要 准备 目标 数据 并 填充 它 以 匹配 最 长 的 目标 序列 。 记 住 , 输入 数据 和 目标 
数据 的 序列 长 度 不 需要 相等 ( 如 图 10-5 所 示 )。 


























输入 序列 (英语 ) 目标 序列 德语) 
[slolelefef TT Gs el 一 ~ ERE 
[wa lao lw — Wa eae] 
































图 10-5” 预 处 理 前 的 输入 序列 和 目标 序列 











除了 所 需 的 填充 , 还 应 该 用 初始 词 条 和 终止 词 条 对 目标 序列 进行 注释 ,以 告诉 解码 器 任务 何 
时 启动 以 及 何 时 完成 ( 如 图 10-6 所 示 )。 
























































































































































输入 序列 (英语) 目标 序列 (德语 ) 
[slole le si lle — El lla Td dali 
Er 本 re 
序列 元 素 填充 元 素 初始 词 条 序列 元 素 终止 词 条 ”填充 元 素 
图 10-6” 预 处 理 后 的 输入 序列 和 目标 序列 
































人 参见 Sutskever、Vinyals 和 Le 的 论文 (参见 下 载 资源 中 的 5346-sequence-to-sequence-learning-with-neural- 
networks.pdf 文件 )。 
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我 们 将 在 本 章 后 面 构建 Keras 流水 线 时 学 习 如 何 注释 目标 序列 。 请 记 住 ,我 们 需要 两 个 版 本 
的 目标 序列 来 进行 训练 : 一 个 以 初始 词 条 开始 〈 我 们 将 使 用 该 词 条 作为 解码 器 输入 )， 另 一 个 不 
以 初始 词 条 开始 〈 损失 函数 将 对 目标 序列 的 精确 性 进行 评分 )。 

在 前 儿 章 中 ， 我们 的 训练 集成 对 组 成 : 输入 和 预期 输出 。 序 列 到 序列 模型 的 每 个 训练 样 
本 都 是 一 个 三 元 组 : 初始 输入 、 预 期 输出 ( 以 初始 词 条 为 前 置 项 ) 和 预期 输出 ( 没有 初始 
词 条 )。 

在 讨论 实现 细节 之 前 ,我 们 先 回 顾 一 下 。 序 列 到 序列 网 络 由 两 个 网 络 组 成 : 编码 吉 , 它 将 生 
思想 向 量 ; 解码 器 , 我 们 会 把 思想 向 量 作为 它 的 初始 状态 传递 给 它 。 将 初始 化 状态 和 初始 词 条 
作为 解码 咒 网 络 的 和 输入， 网 络 会 生成 输出 的 第 一 个 序列 元 素 〈 例如 字符 或 词 向 量 )， 然后， 将 根 
据 更 新 后 的 状态 和 预期 序列 中 的 下 一 个 元 素 预测 下 面 的 每 个 元 素 。 这 个 过 程 将 持续 进行 , 直到 生 
成 一 个 终止 词 条 或 达到 元 素 的 最 大 数量 。 解 码 器 生成 的 所 有 序列 元 素 将 组 成 预测 的 输出 〈 例 如 我 
们 对 用 户 问题 的 回复 )。 记 住 这 些 ， 现 在 我 们 来 看 看 细节 。 





















































10.2.2 ”Keras 中 的 序列 到 序列 模型 


在 接 下 来 的 几 节 中 ， 我 们 将 指导 大 家 通过 Keras 实现 Francois Chollet 发 布 的 序列 到 序列 网 络 "。 
Chollet 先生 也 是 《Python 深度 学 习 》( Deep Learning with Python ) 一 书 的 作者 ， 该 书 是 学 习 神 经 
网 络 架 构 和 Keras 的 宝贵 资料 。 

在 训练 阶段 ， 将 端 到 端 地 同时 训练 编码 器 和 解码 器 网 络 ， 对 于 每 个 样本 需要 3 个 数据 点 : 一 
个 训练 编码 器 输入 序列 、 一 个 解码 需 输 入 序列 和 一 个 解码 器 输出 序列 。 训 练 编码 需 输 入 序列 可 以 
是 一 个 用 户 的 问题 , 我 们 硕 望 机 器 人 对 此 问题 做 出 回复 。 而 解码 器 输入 序列 是 未 来 机 器 人 的 预期 
回复 。 

大 家 可 能 想 知道 为 什么 需要 解码 器 的 输入 序列 和 输出 序列 。 原 因 是 这 里 使 用 了 一 种 名 为 “ 教 
师 强迫 ”(teacher forcing ) 的 方法 来 训练 解码 器 ， 在 这 种 方法 中 ， 将 使 用 编码 器 网 络 提供 的 初始 
状态 , 并 通过 向 解码 器 提供 输入 并 让 它 预 测 相同 的 序列 来 训练 解码 器 生成 预期 序列 。 因 此 ,解码 
器 的 输入 序列 和 输出 序列 将 是 相同 的 ， 除 了 序列 间 有 一 个 时 刻 的 偏 移 量 。 

在 使 用 阶段 , 将 使 用 编码 器 生成 用 户 输入 的 思想 向 量 , 然后 解码 器 将 基于 该 思想 向 量 生成 一 
个 回复 。 解 码 器 的 输出 将 作为 对 用 户 的 回复 。 


Keras 函数 式 API 在 下 面 的 示例 中 , 大 家 将 注意 到 与 前 几 章 看 到 的 Keras 层 不 同 的 实现 风格 。Keras 
引入 了 另 一 种 组 装 模 型 的 方法 ， 该 方法 是 调用 每 一 层 并 从 前 一 晨 将 值 传递 给 该 层 。 当 大 家 想 要 构建 
模型 并 复 用 训练 过 的 模型 的 某 些 部 分 时 (正如 接 下 来 的 章节 中 演示 的 那样 )， 函 数 式 API 会 非常 有 
用 。 有 关 Keras 函数 式 API 的 更 多 信息 ， 我 们 强烈 推荐 Keras 核心 开发 团队 的 博客 文章 。 


















































































































































示 题 为 “A ten-minute introduction to sequence-to-sequence learning in Keras” 的 网 页 。 
详 见 标题 为 “Getting started with the Keras functional API” 的 网 页 。 
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10.2.3 序列 编码 器 

编码 器 的 唯一 目的 是 创建 思想 向 量 ， 然 后 将 其 作为 解码 器 网 络 的 初始 状态 ( 如 图 10-7 所 示 )。 
由 于 没有 “目标 ”思想 向 量 供 网 络 学 习 预 测 ， 因 此 无 法 单独 训练 一 个 编码 器 。 反 向 传播 将 训练 纺 
码 咒 创建 一 个 合适 的 思想 向 量 ， 而 反 向 传播 的 值 来 自 之 后 下 游 解 码 器 产生 的 误差 。 




















Maria is playing soccer 


个 - 
LSTM 


尽管 如 此 ， 编 码 器 和 解码 器 是 独立 的 模块 ， 它 们 之 间 经 常 可 以 互 换 。 例 如 ， 一 旦 编码 器 受 
过 英语 到 德语 翻译 的 训练 ， 不 同 的 编码 器 就 可 以 复 用 来 实现 从 英语 到 西班牙 语 的 翻译 "。 代 码 
清单 10-1 只 展示 了 编码 器 的 情况 。 





思想 向 量 


图 10-7 思想 编码 





代码 清单 10-1 Keras 中 的 思想 编码 





LSTM 层 的 return_state 参数 需要 设 


置 为 True 才能 返回 内 部 状态 
>>> encoder inputs = Input (shape= (None, input vocab size)) 
>>> encoder = LSTM (num neurons, return state=True) 
>>> encoder outputs, state h, state c = encoder (encoder inputs) 二 一 
>>> encoder states = (state h, state c) 


LSTM 层 的 第 一 个 返回 
值 是 该 层 的 输出 
当 大 家 使 用 关键 字 参 数 return_state=True 实例 化 LSTM 层 (或 多 个 层 ) 时 ，Keras 提 
供 的 RNN 层 可 以 方便 地 返回 它们 的 内 部 状态 。 在 下 面 的 代码 段 中 ， 将 保留 编码 器 的 最 终 状 态 ， 并 
忽略 编码 器 的 实际 输出 。 然 后 将 LSTM 状态 列表 传递 给 解码 器 。 
因为 return sequences 默认 为 False， 所 以 第 一 个 返回 值 是 最 后 一 个 时 刻 的 输出 。 
state h 是 这 个 层 的 最 后 一 个 时 刻 的 具体 输出 。 因 此 在 本 例 中 , encoder outputs 和 state _h 
是 相同 的 。 无 论 哪 种 方式 ， 都 可 以 忽略 存储 在 encoder outputs 的 正式 输出 。state_c 是 记 
忆 单元 的 当前 状态 。state _h 和 state_c 将 构成 思想 向 量 。 
10-8 展示 了 内 部 LSTM 状态 是 如 何 生成 的 。 编 码 器 在 每 个 时 刻 都 会 更 新 隐藏 状态 和 记忆 
状态 ， 并 将 最 终 状态 作为 初始 状态 传递 给 解码 器 。 




















Q@ Luong、Le、Sutskever、Vinyals 和 Kaier ( 谷歌 大 脑 ) 在 ICLR 2016 上 描述 了 这 样 一 个 多 任务 模型 的 训练 
方案 ， 称 为 “联合 训练 ”或 “迁移 学 习 ”( 参见 下 载 资 源 中 的 1511.06114.pdf 文件 )。 
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1-1 时 刻 的 输出 
前 一 个 时 刻 
50 个 元 素 的 向 量 


二 
拼接 的 输入 让 
350 个 元 素 的 向 量 


遗忘 门 
1 时 刻 的 输入 每 个 神经 元 351 个 权重 候选 站 
1 个 词 条 ( 词 或 者 字符 ) (1 个 代表 偏 置 )， (2 个 元 素 ) 
由 300 个 元 素 的 向 量 表示 一 共 17 550 个 


10.2.4 思想 解码 器 
























记忆 状态 
| 











图 10-8 ”序列 到 序列 编码 器 中 使 用 的 LSTM 状态 





与 编码 器 网 络 设置 类 似 ， 解 码 器 的 设置 非常 简单 。 主 要 的 区 别 在 于 ,这 一 次 我 们 和 希望 在 每 个 
时 刻 上 都 获得 网 络 的 输出 。 我 们 希望 逐个 判断 各 个 词 条 输出 的 “正确 性 ”( 如 图 10-9 所 示 )。 


<START> Maria spielt FuBball 





Maria spielt FuBball <END> 


图 10-9 ”思想 解码 器 








这 就 是 使 用 样本 三 元 组 的 第 二 部 分 和 第 三 部 分 的 地 方 。 解 码 器 具有 标准 的 一 个 接 一 个 词 条 的 
输入 和 输出 。 它 们 几乎 是 一 样 的 ,但 相差 一 个 时 刻 。 我 们 希望 解码 需 在 给 定 状态 的 情况 下 ， 学 习 
重新 产生 给 定 输入 序列 的 词 条 ， 而 该 状态 由 传人 编码 器 的 三 元 组 第 一 部 分 产生 。 


注意 这 是 解码 器 ,也 是 一 般 序列 到 序列 模型 的 关键 概念 。 大 家 训练 一 个 网 络 来 输出 次 要 问题 空间 
( 另 一 种 语言 或 另 一 种 存在 体 对 给 定 问 题 的 回复 )。 同 时 对 所 说 的 (输入) 和 回复 (输出) 形成 一 个 
“思想 ”。 这 个 思想 通过 一 个 又 一 个 词 条 决定 了 答案 。 最 终 ， 只 需要 一 个 思想 ( 由 编码 器 生成 ) 和 一 
个 通用 的 初始 词 条 就 可 以 开始 工作 了 。 这 已 经 足以 触发 产生 正确 的 输出 序列 。 





要 计算 训练 阶段 的 误差 , 需要 将 LSTM 层 的 输出 传递 到 一 个 稠密 层 。 笛 密 层 的 神经 元 数量 
将 等 于 所 有 可 能 输出 词 条 的 数量 。 笛 密 层 将 使 用 softmax 激活 函数 覆盖 这 些 词 条 。 因 此 ， 在 每 
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个 时 刻 ， 网 络 将 为 它 认为 最 有 可 能 的 下 一 个 序列 元 素 在 所 有 可 能 词 条 上 提供 一 个 概率 分 布 。 我 
们 取 相 关 神 经 元 值 最 高 的 词 条 。 在 前 面 的 章节 中 ， ee softmax 激活 函数 的 输出 层 
我 们 希望 在 其 中 选择 可 能 性 最 大 的 词 条 (详细 信息 见 第 6 章 )。 还 要 注意 ,nun_encoder_ 
tokens 和 output vocab size 不 需要 匹配 , 这 是 序列 到 序列 网 络 的 一 大 优点 。 具体 做 法 参 
见 代 码 清单 10-2。 








代码 清单 10-2 ”Keras 中 的 思想 解码 器 


函数 式 API 允许 你 将 初始 状态 传递 给 LSTM 层 ， 方 设置 LSTM 层 ， 类 似 于 编码 器 ， 但 
法 是 将 最 后 一 个 编码 器 状态 赋值 给 initial state 是 附加 了 一 个 return_sequences 参数 








>>> decoder inputs = Input (shape= (None, output vocab size) ) 
>>> decoder lstm = LSTM( 

num neurons, return sequences=True, return state=True) 
>>> decoder outputs, , _ = decoder lstm( 





em decoder inputs, initial state=encoder states) 将 所 有 可 能 字符 映射 到 softmax 
>>> decoder dense = Dense ( 输出 的 softmax 层 
output vocab size, activation='softmax') 











>>> decoder outputs = decoder dense (decoder outputs) < 


将 LSTM 层 的 输出 传 
递 给 softmax 层 





10.2.5 ”组 装 一 个 序列 到 序列 网 络 


Keras 的 函数 式 API 支持 将 模型 组 装 为 对 象 以 便 调用 。Model 对 象 可 以 定义 网 络 的 输入 和 输 
出 部 分 。 对 于 这 个 序列 到 序列 的 网 络 ， 大 家 将 向 模型 传递 一 个 输入 列表 。 在 代码 清单 10-2 中 ， 
定义 了 编码 器 中 的 一 个 输入 层 和 解码 器 中 的 一 个 输入 层 。 这 两 个 输入 对 应 于 每 个 训练 三 元 组 的 前 
两 个 元 素 。 作 为 输出 层 , 将 decoder_outputs 传递 给 模型 ， 其 中 包括 之 前 定义 的 整个 模型 设 
置 。decoder outputs 中 的 输出 对 应 于 每 个 训练 三 元 组 的 最 后 一 个 元 素 。 

注意 使 用 这 样 的 函数 式 API，decoder outputs 之 类 的 定义 是 张 量 表示 。 在 这 里 ， 大 家 会 注意 

到 与 前 面 儿 章 描述 的 顺序 式 (sequential ) 模型 的 不 同 之 处 。 请 再 次 参阅 文档 了 解 Keras 的 API 的 基 

本 信息 。 具 体 做 法 参见 代码 清单 10-3。 

















代码 清单 10-3 ”Keras 函数 式 API ( Model1 () ) 

















>>> model = Model( 如 果 期 望 具有 多 个 输入 或 输出 ， 则 
2 inputs=[encoder inputs, decoder inputs] 可 以 将 输入 和 输出 参数 定义 为 列表 


outputs=decoder outputs) 


10.3 ”训练 序列 到 序列 网 络 
在 Keras 模型 中 ， 创 建 序列 到 序列 模型 的 最 后 一 个 步 又 是 编译 (compile ) 和 拟 合 ( 人)。 与 前 几 
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章 相 比 ， 唯 一 的 区 别 是 ， 我 们 之 前 预测 的 是 二 元 分 类 : 是 或 不 是 。 这 里 有 一 个 单 分 类 ( categorical 
classification ) 或 多 分 类 ( multiclass classification ) 问题 。 在 每 个 时 刻 ， 必 须 确 定 许 多 “类 别 ” 中 
的 哪 一 个 是 正确 的 ,这 里 有 很 多 类 别 。 模 型 必须 在 所 有 可 能 的 词 条 之 间 进 行 选择 。 因 为 预测 的 是 
字符 或 词 ， 而 不 是 二 进 制 状态 ， 所 以 大 家 将 基于 categorical_crossentropy 损失 函数 进行 
优化 ， 而 不 是 基于 之 前 使 用 的 pinary_crossentropy。 因 此 ， 这 是 大 家 需要 对 Keras 代码 中 
model.compile 步骤 进行 的 唯一 更 改 ， 如 代码 清单 10-4 所 示 。 














代码 清单 10-4 在 Keras 中 训练 一 个 序列 到 序列 模型 


>>>model.compile (optimizer='rmsprop', loss='categorical crossentropy') 
>>> model.fit([encoder input data, decoder input datal], 
decoder _ target data, 将 loss 函数 设置 
batch size=batch size epochs=epochs) 为 categorical 
crossentropy 





该 模型 期 望 训练 输入 为 一 个 列表 ， 在 训练 期 间 第 一 个 列表 

元 素 传递 给 编码 器 网 络 ， 第 二 个 元 素 传递 给 解码 器 网 络 
恭 言 ! 通过 调用 mogel .fit 函数 ， 大 家 正在 训练 序列 到 序列 的 端 到 端 网 络 。 在 下 面 的 章节 
我 们 将 演示 如 何 为 给 定 的 输入 序列 推测 输出 结果 。 


注意 ”序列 到 序列 网 络 的 训练 是 计算 密集 型 的 ， 因 此 非常 耗 时 。 如 果 大 家 的 训练 序列 很 长 ， 或 者 我 
们 想 用 一 个 大 型 的 语料库 来 训练 ， 我 们 强烈 建议 在 GPU 上 训练 这 些 网 络 ， 这 样 可 以 将 训练 速度 提 
高 30 倍 。 如 果 从 未 在 GPU 上 训练 过 神经 网 络 ， 别 担心 。 查 看 第 13 章 关 于 如 何在 商业 计算 云 服务 
上 租用 和 设置 自己 的 GPU。 

LSTM 本 质 上 不 像 卷 积 神经 网 络 那样 是 可 并 行 的 ,所 以 为 了 充分 利用 GPU, 我 们 应 该 用 CuDNNLSTM 
替换 LSTM 层 ， 这 是 为 了 在 CUDA 支持 的 GPU 上 进行 训练 而 优化 的 网 络 层 。 

















生成 输出 序列 


在 生成 序列 之 前 , 需要 获取 训练 层 的 结构 ， 并 将 其 重新 组 装 以 用 于 生成 序列 。 首 先 , 定义 特 
定编 码 器 的 模型 。 这 个 模型 将 被 用 来 生成 思想 向 量 。 具 体 做 法 参见 代码 清单 10-5。 


代码 清单 10-5 “使 用 通用 Keras Model 生成 文本 的 解码 器 


>>> encoder model = Model (inputs=encoder inputs, outputs=encoder states) 
tes， 








这 里 使 用 前 面 定义 的 encoder inputs 和 encoder sta 
在 此 模型 上 调用 预测 方法 将 返回 思想 向 量 









































解码 器 的 定义 看 起 来 令 人 生长, 但 是 让 我 们 一 步 一 步 理 清 代 码 的 各 个 片段 。 首先 , 我 们 将 定 
义 解码 器 的 输入 。 我 们 使 用 Keras 输入 层 ， 但 是 我 们 传递 的 是 编码 器 网 络 生成 的 思想 向 量 ， 而 不 
是 传递 独 热 向 量 、 字 符 或 词 内 入 。 注 意 ， 编 码 器 返回 一 个 包含 两 种 状态 的 列表 , 在 调用 之 前 定义 
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的 decoder lstm 时 , 需要 将 该 列表 传递 给 initial state 参数 。 人 然后 , 将 LSTM 层 的 输出 
传递 给 之 前 也 定义 过 的 稠密 层 。 该 层 的 输出 将 提供 所 有 人 解码 器 输出 词 条 (在 本 例 中 ,所 有 在 训练 
阶段 看 到 的 字符 ) 的 概率 。 

这 里 是 神奇 的 部 分 。 在 每 个 时 刻 , 预测 概率 最 高 的 词 条 接 下 来 将 作为 最 有 可 能 的 词 条 返回 给 
解码 器 网 络 ， 并 作为 新 输入 继续 传递 到 解码 器 的 下 一 个 迭代 步 又 。 具 体 做 法 参见 代码 清单 10-6。 


代码 清单 10-6 ”随机 思想 的 序列 生成 器 
>>> thought input = [Input (shape= (num neurons,)), es 


Input (shape= (num neurons,))] 




















>>> decoder outputs, state h, state c = decoder lstm( 将 编码 器 状态 作为 初始 状态 传 
5 元 decoder inputs, initial state=thought input) 递 给 LSTM 层 
>>> decoder states = [state h, state c] i ee 
—— > >>> decoder outputs = decoder dense (decoder outputs) 本 LSTM 状态 将 成 为 下 
一 次 达 代 的 新 细胞 状态 
最 后 一 步 是 将 解码 器 
>>> decoder model = Modell( 模型 绑 定 在 一 起 
inputs=[decoder inputs] + thought input, < 
output=[decoder outputs] + decoder states) 
将 输出 从 LSTM 传递 到 稠密 将 稠密 层 的 输出 和 更 新 后 的 decoder inputs 和 thought_input 
层 ， 以 预测 下 一 个 词 条 状态 定义 为 输出 成 为 解码 器 模型 的 输入 








一 旦 建立 了 模型 ,大 家 就 可 以 根据 一 个 独 热 编码 的 输入 序列 和 最 后 生成 的 词 条 来 预测 思想 
向 量 ， 从 而 生成 整个 序列 。 在 第 一 次 迭代 期 间 ，target seq 被 设置 为 初始 总 司 条 。 在 接 下 来 的 
所 有 迭代 中 ，target _seq 将 使 用 最 后 生成 的 词 条 进行 更 新 。 这 个 循环 会 一 直 进 行 下 去 ， 直 到 
达到 序列 元 素 的 最 大 数量 或 者 解码 器 生成 一 个 终止 词 条 ， 1 具体 做 法 参见 代 
码 清单 10-7。 




















代码 清单 10-7 ”简单 的 解码 器 一 一 预测 下 一 个 词 


将 输入 序列 编码 为 思想 向 量 (LSTM 
2 记忆 细胞 状态 ) 
>>> thought = encoder model.predict (input seq) 








>>> while not stop condition: < 
output token, h, c = decoder model.predict\( 


[target seq] + thought) | 每 次 迭代 之 后 都 会 更 新 stop_condition, 如 果 满 
内 部 

















解码 器 返回 具有 最 高 概率 的 词 条 和 足 输出 序列 词 条 的 最 大 数量 或 者 解码 器 生成 
状态 ， 这 些 将 在 下 一 次 迭代 中 复 用 一 个 终止 词 条 ， 则 stop_condition 变 为 True 


























10.4 使 用 序列 到 序列 网 络 构建 一 个 聊天 机 器 人 
在 前 面 的 小 节 中 , 大 家 学 习 了 如 何 训练 序列 到 序列 的 网 络 , 以 及 如 何 使 用 训练 过 的 网 络 生成 
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序列 回复 。 在 接 下 来 的 这 节 中 ， 我 们 将 指导 大 家 如 何 应 用 各 种 步骤 来 训练 一 个 聊天 机 器 人 。 为 
了 训练 聊天 机 器 人 ， 我 们 将 使 用 康 奈 尔 电影 对 话语 料 库 "。 大 家 将 训练 一 个 序列 到 序列 的 网 络 
来 “适当 地 ”回答 大 家 的 问题 或 语句 。 我 们 的 聊天 机 器 人 示例 采用 的 是 Keras blog 中 的 序列 到 序 
列 的 示例 。 





10.4.1 为 训练 准备 语料库 


首先 ， 大 家 需要 加 载 语料库 并 从 中 生成 训练 集 。 训 练 数据 将 决定 编码 器 和 解码 器 在 训练 阶段 和 
生成 阶段 所 支持 的 字符 集 。 请 注意 ， 该 实现 代码 不 支持 在 训练 阶段 未 包含 的 字符 。 使 用 整个 Cornell 
Movie Dialog 数据 集 可 能 需要 大 量 的 计算 ,因为 一 些 序列 有 超过 2000 个 词 条 一 一 2000 个 时 刻 , 需要 
一 段 时 间 才 能 展开 。 但 是 大 多 数 对话 样 本 都 是 基于 少 于 100 个 字符 的 。 对 于 本 例 ， 可 以 通过 将 样 
本 限制 为 少 于 100 个 字符 、 删 除 奇 怪 字符 和 只 允许 使 用 小 写字 符 ， 对 对 话语 料 库 进行 预 处 理 。 通 过 
这 些 处 理 ， 可 以 限制 字符 的 种 类 。 大 家 可 以 在 本 书 的 GitHub 存储 库 中 找到 预 处 理 过 的 语料库 。” 

大 家 将 遍历 语料库 文件 并 生成 训练 对 ( 技术 上 来 说 是 三 元 组 形式 : 输入 文本 、 带 有 初始 词 条 
的 目标 文本 和 目标 文本 )。 在 阅读 语料库 时 ， 还 将 生成 一 组 输入 字符 和 目标 字符 ， 然 后 将 使 用 这 
些 字符 对 样本 进行 独 热 编码 。 输 入 字符 和 目标 字符 的 数量 不 必 完 全 匹配 。 但 是 在 生成 阶段 ,不 能 
读 取 或 生成 不 包含 在 训练 集中 的 字符 。 代 码 清单 10-8 中 给 出 的 结果 是 输入 文本 和 目标 文本 ( 字 
符 串 ) 的 两 个 列表 ， 以 及 训练 语料库 中 出 现 的 两 组 字符 。 
































代码 清单 10-8 ”建立 基于 字符 的 序列 到 序列 训练 集 








目标 序列 用 start (第 一 个 ) 和 stop (最 后 一 个 ) 





























这 个 集合 保存 给 入 文本 和 | | | 词 条 进行 注释 ， 这 里 定义 了 表示 词 条 的 字符 。 
目标 文本 中 出 现 过 的 字符 数组 保存 从 语料库 文件 中 读 | | 这 些 词 条 不 能 作为 普通 序列 文本 的 一 部 分 ， 而 
































Ne 3 和 

取 的 输入 文本 和 目标 文本 。 | | 应 该 仅仅 作为 初始 词 条 和 终止 词 条 而 使 用 
from nlpia.loaders import get data 
df = get datal('moviedialog') 























input texts, target texts = [], [] max training samples 定义 了 
input vocabulary = set() 训练 使 用 的 行 数 。 它 是 用 户 
output vocabulary = set() 定义 的 最 大 值 和 从 文件 中 加 
start token = '\t!" < 载 的 总 行 数 中 较 小 的 数 
stop token = '\n' 

>>> max training samples = min(25000, len(df) - 1) 


>>> for input text, target text in zipl(df.statement, df.reply): 
target text = start token + target text \ 
+ stop _ token 二 
P- target text 需要 用 起 始 词 条 
input texts.append (input text) 和 终止 词 条 进行 包 妆 
target texts.append (target text) 堆 凸 同 东 进 休 包 农 


























Q@ 详 见 标题 为 “Cornell Movie-Dialogs Corpus” 的 网 页 。 
@) 详 见 标题 为 “keras/examples/lstm_seq2seq.py at master” 的 网 页 。 
@ 参见 本 书 GitHub 上 标题 为 “GitHub - totalgood/mlpia” 的 网 页 。 











异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 











286 第 10 章 ， 序列 到 序列 建 模 和 注意 力 机 制 








for char in input text: 编译 词汇 表 input text 


if char not in input vocabulary: 出现 } Rs 
现 过 的 唯一 字符 的 集合 
input vocabulary.add (char) 中 出现 过 的 唯一 字符 的 集合 


for char in target text : 
if char not in output vocabulary: 
output vocabulary.add (char) 





10.4.2 ”建立 字符 字典 


与 前 几 章 中 的 示例 类 似 , 大 家 需要 将 输入 文本 和 目标 文本 的 每 个 字符 转换 为 表示 每 个 字符 的 
独 热 向 量 。 为 了 生成 独 热 向 量 ,需要 生成 词 条 字典 ( 用 于 输入 文本 和 目标 文本 )， 其 中 每 个 字符 
都 被 映射 到 一 个 索引 。 男 外 ， 还 将 生成 反 向 字典 ( 索引 映射 为 字符 )， 在 生成 阶段 将 使 用 该 反 向 
字典 将 生成 的 索引 转换 为 字符 。 具 体 做 法 参见 代码 清单 10-9。 


代码 清单 10-9 字符 级 序列 到 序列 模型 参数 






























































对 于 输入 数据 和 目标 数据 , 还 将 字符 集 转换 为 排序 后 的 字符 列 

需 确定 序列 词 条 的 最 大 数量 表 ， 然 后 使 用 该 列表 生成 字典 对 于 输入 数据 和 目标 数据 ， 
人 i ee ee Pe 确定 唯一 字符 的 最 大 数量 ， 

input _ vocabulary = sorted(input vocabulary 和 为 建 _ 个 镍 执 

>>> output vocabulary = sortedq(output_vocabulary) 于 构建 一 个 独 热 矩阵 
>>> input vocab size = len(input vocabulary) 
>>> output vocab size = lenl(output vocabulary) 
>>> max_encoder seq length = max( 

J [len (txt) for txt in input texts]) 循环 遍历 input_vocabulary 和 
>>> max_decoder seq length = max( output vocabulary 来 创建 查 

[len (txt) for txt in target texts]) 找 字典 ， 用 于 生成 独 热 向 量 、 

>>> input token index = dict([(char, i) for i, char in 








A enumerate (input vocabulary)]) < 
>>> target _ token index = dict( 

[(char, i) for i, char in enumerate (output vocabulary)]) 
>>> reverse input char index = dict((i, char) for char, i in 





input_ token index.items()) < 
>>> reverse target char index = dict((i, char) for char, i in 
target token index.items () ) 循环 遍历 新 创建 的 字典 以 








创建 反 向 查找 表 


10.4.3 ”生成 独 热 编码 训练 集 


下 一 步 ， 将 输入 文本 和 目标 文本 转换 为 独 热 编码 的 “ 张 量 "。 为 了 做 到 这 点 ， 需 要 循环 遍历 
每 个 输入 样本 和 目标 样本 以 及 每 个 样本 的 每 个 字符 , 并 对 每 个 字符 进行 独 热 编码 。 每 个 字符 由 
个 nx1 向 量 编码 (其 中 是 唯一 的 输入 字符 或 目标 字符 的 个 数 )。 然后 针对 每 个 样本 将 所 有 向 量 
组 合 以 创建 一 个 矩阵 ， 并 将 所 有 样本 组 合 以 创建 要 训练 的 张 量 。 具 体 做 法 参见 代码 清单 10-10。 
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代码 清单 10-10 ”构造 字符 级 序列 编码 -解码 训练 集 








>>> import numpy as np 在 矩阵 操作 中 使 














] numpy 





>>> encoder input data = np.zeros((lenl(input texts), 
max_encoder seq length, input vocab size), 
OG dtype="'float32') < 一 一 
>>> decoder input data = np.zeros((len(input texts), 
max_ decoder seq length, output vocab size), 
dtype="'float32') 

>>> decoder target data = np.zeros((len(input texts), 
max_decoder seq length, output vocab size), 
dtype="'float32') 














训练 的 张 量 初始 化 为 形状 为 qum_ 


samples, max len sequence, num 








unique_tokens_in_vocab) 的 零 张 量 








>>> for i, (input text, target text) in enumerate ( 























2 (input=texts, korget texts) 让 对 训练 样本 进行 循 
六 ha 2 enumerate (input text): 循环 遍历 每 个 样 环 遍历 , 输入 文本 和 
| 本 的 每 个 字符 目标 文本 需要 对 应 
— >... i, t, input token index[char]] = 
for t, char in enumerate (target text): < 
decoder input datal 
i, t, target token index[char]] = 1. 
Et Os 
decoder target datali, t - 1, target token index[char]] = 1 
将 每 个 时 刻字 符 的 索引 设置 为 1， 其 他 所 
有 索引 仍 保持 为 0。 这 将 创建 训练 样本 的 对 解码 需 的 训练 数据 , 大 家 将 创建 decoder input data 
独 热 编码 表示 和 decoder target_ data ( 后 者 落后 于 前 者 一 个 时 刻 ) 





10.4.4 训练 序列 到 序列 聊天 机 器 人 


Ce | 练 集 的 工作 一 一 将 预 处 理 的 语料库 转换 为 输入 样本 和 目标 样本 , 创建 索引 查 

字典 ,并 将 样本 转换 为 独 热 张 量 之 后 ,终于 是 时 候 训练 聊天 机 器 人 了 。 代 码 与 前 面 的 示例 完全 
个 一 旦 model .fit 函数 完成 了 训练 , 大 家 就 拥有 了 一 个 基于 序列 到 序列 网 络 的 完全 训练 好 
的 聊天 机 器 人 了 。 具 体 做 法 参见 代码 清单 10-11。 





代码 清单 10-11 构造 和 训练 一 个 字符 级 序列 编码 -解码 网 络 





在 本 例 中 , 将 批 处 理 大 小 设置 为 64 个 

样本 。 增 加 批 处 理 大 小 可 以 加 快 训练 

速度 ， 但 它 也 需要 更 多 的 内 存 
>>> from keras.models import Model 
>>> from keras.layers import Input, LSTM, Dense 训练 一 个 序列 到 序列 的 网 络 
可 能 很 长 , 一 般 至 少 需 要 100 
个 训练 周期 














>>> batch size = 64 
>>> epochs = 100 
>>> num neurons = 256 4 在 本 例 中 ,将 神经 元 维 
数 设 置 为 256 








>>> encoder inputs = Input (shape= (None, input vocab size)) 
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b> 


encoa 
encoa 
encoda 


er 
er_outputs, 
er_states 


LSTM (num neurons, 加 
state h, state c = 
[state nh, state cl] 


pos 


decodqd 
decodqd 


er inputs 
er_lstm 


Input (shape= (None, 
LSTM (num neurons, 
return state=True) 


>>> decoder outputs, _, 
initial state=encoder states) 
decoder dense 
decoder outputs 
model Model ([encoder inputs, 


Pa 
>>> 
>>> 





>>> model.compile (optimizer='rmsprop', 
metrics=['acc']) 
model.fit([encoder input data, 
decoder target data, 
validation split=0.1) 


bp Ss 


10.4.5 ”组装 序列 生成 模型 


_ = decoder lstm(decoder inputs, 
Dense (output vocab size, 
decoder dense (decoder outputs) 
decoder inputs], 


loss= 


decoder input datal], 
batch size=batch size, 


亨 列 建 模 和 注意 力 机 制 





return state=True) 
encoder (encoder inputs) 


output vocab size)) 
return sequences=True, 


在 每 个 训练 周期 之 
后 ， 预 留 10% 的 样 
本 用 于 验证 测试 











activation='softmax') 
decoder outputs) 


'Ccategorical crossentropy', 


epochs=epochs, 








组 装 序列 生成 模型 与 我 们 在 前 面 几 节 中 讨论 的 非常 相似 。 但 是 必须 进行 一 些 调整 ,因为 没有 


特定 的 目标 文本 和 状态 输入 解码 器 。 大 家 所 拥有 的 只 
清单 10-12。 





! 是 输入 和 一 个 初始 词 条 。 具体 做 法 参见 代码 


代码 清单 10-12 ”构造 回复 生成 器 模型 





>>> encoder model = Model (encoder inputs, encoder states) 
>>> thought input = [ 
Input (shape= (num neurons,)), Input (shape= (num neurons,))] 
>>> decoder outputs, state h, state c = decoder lstm( 
decoder inputs, initial state=thought input) 
>>> decoder states = [state h, state c] 
>>> decoder outputs = decoder dense (decoder outputs) 
>>> decoder model = Model( 
inputs=[decoder inputs] + thought input, 


output=[decoder outputs] 


10.4.6 ”预测 输出 序列 





decode _ sequence 限 数 是 聊天 机 器 人 生成 回复 的 核心 。 
成 思想 向 量 ， 并 使 用 思想 向 量 通 过 之 前 训练 好 的 网 络 生成 适合 的 回复 。 具 
单 10-13。 
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+ decoder states) 


热 编 


TY 


它 接受 独 热 编码 的 输入 序列 , 生 


具体 做 法 参见 代码 清 
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代码 清单 10-13 ”建立 基于 字符 的 翻译 器 
>>> def decode sequence (input seq): 生成 思想 向 量 作 为 
i dl 








thought = encoder model.predict (input _ sedq) 符 码 器 的 输入 


target seq = np.zeros((1, 1, output vocab size)) 1 I 
有 与 训练 相反 
target seq[l0, 0, target token index[stop token] 


] = 1. 第 一 个 输入 词 
stop condition = False 解码 器 的 第 和 输入 词 


generated sequence = "" 条 是 初始 词 条 


，target seq 
一 开始 是 一 个 零 张 量 











将 已 生成 的 词 条 和 最 新 状 








while not stop condition: 态 传 递 给 解码 器 ， 以 预测 下 
output tokens, h, c = decoder model.predict\( 一 个 序列 元 素 


[target seq] + thought) 


generated token idx = np.argmax (output tokens[0, -1, :]) 
generated char = reverse target char index[generated token idx] 
generated sequence += generated char 
if (generated char == stop token or 

lenl(generated sequence) > max decoder seq length 

) : we | stop_condition 设置 为 True 将 停止 循环 

stop_ condition = True 

target seq = np.zeros((1, 1, output vocab size)) 


























， 这 generated token idx] = 1. 更 新 目标 序列 ,并 使 用 最 后 
" 生成 的 词 条 作为 下 一 生成 
步骤 的 输入 


return generated sequence 








10.4.7 ”生成 回复 


现在 ， 大 家 将 定义 一 个 辅助 函数 response () ， 用 于 将 输入 字符 串 〈 例如 来 自 人 类 用 户 的 
语句 ) 转换 为 聊天 机 器 人 的 回复 。 该 函数 首先 将 用 户 输入 的 文本 转换 为 由 独 热 编码 向 量 组 成 的 序 
列 。 然 后 将 这 个 独 热 向 量 的 张 量 传递 给 前 面 定义 的 decode_sequence () 函数 。 它 将 输入 的 文 
本 编码 成 思想 向 量 ， 并 将 这 些 思想 向 量 生成 文本 。 

注意 ”关键 点 不 在 于 向 解码 器 提供 初始 状态 〈 即 思想 向 量 ) 和 输入 序列 ， 而 是 只 提供 思想 向 量 和 初 

台词 条 。 给 定 初始 状态 和 初始 词 条 ， 解 码 器 生成 的 词 条 在 第 2 个 时 刻 成 为 解码 器 的 输入 ， 而 第 2 

时 刻 的 输出 又 变 成 第 3 个 时 刻 的 输入 ， 以 此 类 推 。LSTM 记忆 状态 始终 都 在 更 新 记 se 

就 像 我 们 在 第 9 章 中 看 到 的 那样 : 












































对 输入 文本 的 每 个 字符 进行 循环 遍历 ， 生 成 独 
热 张 量 ， 以 便 编码 器 从 中 生成 思想 向 量 











>>> def response (input text): 

input seq = np.zeros((1, max encoder seq length, input vocab size), 
dtype="'float32') 

for t, char in enumerate (input text): 
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input seq[0, t, input token index[char]] = 1. 
decoded sentence = decode sequence (input seq) 
print('Bot Reply (Decoded sentence):', decoded sentence) 

使 用 decode_sequence 函数 调用 
训练 好 的 模型 生成 回复 序列 




















10.4.8 与 聊天 机 器 人 交谈 


大 家 刚刚 完成 了 训练 和 测试 聊天 机 器 人 的 所 有 必要 步 又 。 接 下 来 , 大 家 是 否 对 于 聊天 机 器 人 
回复 的 内 容 感 兴趣 呢 ? 在 NVIDIA GRID K520 GPU 上 花费 大 约 7 个 半 小 时 训练 100 个 周期 之 后 ， 
这 个 训练 有 素 的 序列 到 序列 闲聊 机 器 人 仍然 有 点 顽固 、 说 话 简短 。 一 个 更 大 、 更 通用 的 训练 语 料 
集 可 以 改变 这 种 表现 : 


>>> response ("what is the internet?") 
Bot Reply (Decoded sentence): it's the best thing i can think of anything. 











>>> response ("why?") 
Bot Reply (Decoded sentence): i don't know. i think it's too late. 


>>> response ("do you like coffee?") 
Bot Reply (Decoded sentence): yes. 


>>> response ("do you like football?") 
Bot Reply (Decoded sentence): yeah. 


注意 ”如 果 大 家 不 想 设置 GPU 或 训练 自己 的 聊天 机 器 人 ， 不 用 担心 ， 我 们 会 提供 训练 后 的 聊天 机 
器 人 供 大 家 测试 。 请 移 步 本 书 的 GitHub 存储 库 ,查看 最 新 版 本 的 聊天 机 器 人 。 如 果 大 家 收 到 聊天 
机 器 人 任何 有 趣 的 回复 ， 也 请 告诉 作者 。 























10.5 增强 





有 两 种 增强 训练 序列 到 序列 模型 的 方法 ,可 以 提高 模型 的 精确 率 和 可 扩展 性 。 像 人 类 学 习 一 
样 ， 深 度 学 习 会 从 精心 设计 的 课程 中 受益 。 大 家 需要 对 训练 材料 进行 分 类 和 排序 ， 以 确保 模型 快 
速 学 习 吸 收 ， 并 且 我 们 需要 确保 老师 能 突出 文档 中 最 重要 的 部 分 。 








10.5.1 使 用 装 桶 法 降低 训练 复杂 度 


输入 序列 可 以 有 不 同 的 长 度 , 这 使 短 序 列 的 训练 数据 添加 了 大 量 填充 词 条 。 过 多 的 填充 会 使 
计算 成 本 高 郧 ,特别 是 当 大 多 数 序列 都 很 短 ， 只 有 少数 序列 接近 最 大 词 条 长 度 时 。 假设 大 家 用 数 
据 训 练 序列 到 序列 网 络 ， 其 中 几乎 所 有 的 样本 都 是 100 个 词 条 长 ， 只 有 几 个 包含 1000 个 词 条 的 
异常 值 除 外 。 若 不 进行 装 桶 (bucketing )， 我 们 需要 用 900 个 填充 词 条 填充 大 部 分 训练 数据 ， 并 















































@ 详 见 本 书 GitHub 上 标题 为 “GitHub - totalgood/nlpia” 的 网 页 。 
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且 在 训练 阶段 , 序列 到 序列 网 络 必 须 对 填充 词 条 进行 循环 遍历 。 这 种 填充 数据 会 大 大 减缓 训练 速 
度 。 在 这 种 情况 下 ， 装 桶 法 可 以 减少 计算 量 。 我们 可 以 按 长 度 对 序列 排序 ， 并 在 不 同 的 批 处 理 期 
间 使 用 不 同 的 序列 长 度 。 我 们 将 输入 序列 分 配 到 不 同 长 度 的 桶 中 , 例如 长 度 在 5 ~ 10 个 词 条 之 间 
的 所 有 序列 放 在 一 个 桶 中 ,然后 训练 该 批 次 时 使 用 这 个 序列 的 桶 , 例如 ， 先 训练 5 ~ 10 个 词 条 之 
间 的 所 有 序列 ， 然 后 训练 10 ~ 15 个 词 条 之 间 的 所 有 序列 ， 等 等 。 一 些 深度 学 习 框 架 提 供 了 一 些 
装 桶 工具 为 输入 数据 提供 最 佳 装 桶 方式 。 

如 图 10-10 所 示 ， 序 列 首先 按 长 度 排序 ,然后 仅 填 充 到 特定 桶 的 最 大 词 条 长 度 。 这样 ,在 训 
练 序列 到 序列 网 络 时 ,可 以 减少 所 有 批 处 理 所 需 的 时 刻 数 量 。 在 指定 的 批 处 理 中 ,只 在 需要 的 范 
町内 《到 最 长 的 序列 ) 展开 网 络 。 























































































































初始 序列 终止 

词 条 元 素 词 条 os 

国 国 国 国 国 国 国 国 国 国 国 才 口 口 口 口 国 国 回转 口 

国 国 固 罩 国 口 口 口 口 口 口 口 口 口 口 口 一 批 国 国 国 国 图 

国 国 回国 国 国 回国 口 口 口 口 口 口 口 口 5 个 词 条 | 国 国 国 国 围 

国 国 国 国 国 国 转口 口 口 口 口 口 口 口 口 国 国 加 回转 

国 国 回国 回国 口 口 口 口 口 口 口 口 口 口 国 国 国 国 国 国 口 

国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 第 二 批 国 国 国 国 国 国 口 

国 国 国 国 国 国 回国 转口 口 口 口 口 口 口 7 个 词 条 | ” 国 国 国 国 加 回国 

国 国 回国 国 国 转口 口 口 口 口 国 国 国 国 国 国 图 

国 国 回国 国 国 回国 回国 口 口 口 口 国 国 国 国 国 国 国 夯 口 口 

转 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 第 三 批 图 国 国 国 国 国 国 国立 口 

国 国 回国 国 口 口 口 口 口 口 口 人 

国 国 回国 回国 口 口 口 口 口 口 贺 国 国 国 国 国 国 国 国 图 

回国 国 图 口 口 口 口 口 口 国 国 国 国 国 国 国 国 国 国 国 国立 口 

国 国 回国 国 口 口 口 口 口 口 口 第 四 批 国 国 国 国 国 国 国 国 回国 国 国 国 国 转 
国 国 回国 国 国 加 国画 口 口 口 口 口 16 个 词 条 | ” 国 回 品 口 口 口 口 口 口 口 口 口 口 口 口 图 
国 国 国 国 国 国 国 国 国 国 国 国 国 口 口 口 国 国 国 国 国 国 国 国 国 国 国 国 国 国 回国 








图 10-10” 装 桶 ( bucketing ) 应 用 于 目标 序列 


10.5.2 ”注意 力 机 制 


与 第 4 章 中 介绍 的 潜在 语义 分 析 一 样 , 较 长 的 输入 序列 (文档 ) 倾向 于 产生 不 精确 表示 这 些 
文档 的 思想 向 量 。 思 想 向 量 受 LSTM 层 ( 神经 元 数量 ) 维 数 的 限制 。 对 于 短 输入 /输出 序列 ， 一 
个 思想 向 量 就 足够 了 ， 类 似 于 这 个 聊天 机 器 人 示例 。 但 是 想象 一 下 , 我 们 想 训 练 一 个 序列 到 序列 
模型 来 概述 在 线 文章 。 在 这 种 情况 下 , 输入 序列 可 以 是 一 篇 很 长 的 文章 ,要 将 这 篇 文章 压缩 到 一 
个 思想 向 量 中 ,以 生成 一 个 标题 。 可 以 想象 ,训练 网 络 来 确定 较 长 的 文档 中 最 相关 的 信息 是 很 棘 
手 的 。 标 题 或 摘要 ( 以 及 相关 的 思想 向 量 ) 必须 关注 该 文档 的 某 个 特定 方面 或 部 分 ， 而 不 是 试图 
表示 其 具有 的 所 有 复杂 含义 。 

2015 年 ，Bahdanau 等 人 在 国际 表示 学 习 大 会 ( International Conference on Learning 
Representations ，ICLR ) 上 提出 了 他 们 对 这 一 问题 的 解决 方案 `。 作 者 提出 的 这 个 概念 后 来 被 称 为 

















@ 详 见 标题 为 “Neural Machine Translation by Jointly Learning to Align and Translate” 的 网 页 。 








异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 





292 第 10 章 序列 到 序列 建 模 和 注意 力 机 制 





注意 力 机 制 (attention mechanism ) ( 如 图 10-11 所 示 )。 顾 名 思 义 ,这 个 想法 是 要 告诉 解码 需 应 该 
注意 输入 序列 中 的 哪些 部 分 。 这 种 “预演 ”是 通过 人 允许 解码 器 除 查 看 思想 向 量 外 ,还 允许 查看 编 
码 器 网 络 的 所 有 状态 来 实现 的 。 整 个 输入 序列 上 的 “ 热 图 ”( heat map ) 版 本 将 与 网 络 的 其 他 部 分 
一 起 学 习 。 每 个 时 刻 不 同 的 映射 会 与 解码 器 共享 。 当 它 解 码 序列 的 某 个 特定 部 分 时 ,思想 向 量 产 
生 的 概念 会 被 它 直 接 产 生 的 信息 所 增强 扩充 。 换 句 话说 , 注意 力 机 制 通过 选择 与 输出 相关 的 输入 
部 分 ,允许 输入 和 输出 之 间 直 接连 接 。 这 并 不 意味 着 输入 和 输出 序列 的 词 条 要 对 齐 ， 因 为 那样 就 
违背 了 目标 , 使 我 们 返回 到 了 自 编 码 器 的 阶段 。 无 论 概念 的 表示 出 现在 序列 中 的 哪个 部 分 , 它 ( 注 
意 力 机 制 ) 都 可 以 使 它们 更 加 丰富 。 


则 eee 


























注意 力 机 制 
















解码 器 






和 10-11 ”注意 力 机 制 概 况 


有 了 注意 力 机 制 ， 在 给 定 解码 器 时 刻 时 ， 解码 器 都 会 接收 一 个 额外 的 具有 每 个 时 刻 的 输入 ， 
表示 要 “注意 ”的 输入 序列 中 的 一 个 (或 多 个 ) 词 条 。 编 码 器 中 所 有 序列 的 重要 程度 将 由 解码 器 
各 个 时 刻 的 加 权 平 均值 表示 。 
配置 和 调 优 注意 力 机 制 并 不 简单 , 但 是 各 种 深度 学 习 框 架 都 提供 了 简单 的 实现 方法 。 在 撰写 
本 书 时 ，Keras 包 的 注意 力 相关 代码 被 讨论 过 ,但 是 目前 还 没有 接受 任何 代码 实现 。 



































10.6 ”实际 应 用 


序列 到 序列 网 络 非常 适合 所 有 具有 可 变 长 度 输入 序列 或 可 变 长 度 输 出 序列 的 机 带 学 习 应 用 。 
由 于 自然 语言 的 词 序列 几乎 总 是 有 不 可 预测 的 长 度 ， 因 此 序列 到 序列 模型 可 以 提高 大 多 数 机 器 学 
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习 模 型 的 精确 率 。 

目前 序列 到 序列 结构 的 主要 应 用 有 : 
聊天 机 器 人 对 话 ; 
问答 系统 ; 

机 咒 翻 译 ; 
图 像 描 述 ; 

可 视 化 问答 ; 

文档 摘要 。 

正如 大 家 在 前 几 节 中 看 到 的 ， 对 话 系 统 是 NLP 领域 的 一 个 常见 应 用 。 序 列 到 序列 模型 是 生 
成 式 的 ， 这 使 它 特别 适合 应 用 于 对 话 系统 (聊天 机 器 人 )。 序 列 到 序列 的 聊天 机 器 人 可 以 生成 比 
信息 检索 或 基于 知识 的 聊天 机 器 人 更 多 样 、 更 具 创造 性 和 更 口语 化 的 对 话 。 对 话 系统 模拟 人 们 在 
多 类 主题 上 的 对 话 。 序 列 到 序列 的 聊天 机 器 人 可 以 从 限定 领域 的 语料库 中 进行 泛 化 学 习 , 但 对 其 
训练 集中 不 包含 的 主题 也 可 以 做 出 合理 的 响应 。 相 反 ， 基 于 知识 的 对 话 系统 的 “基础 ”( 在 第 12 
章 中 讨论 ) 会 限制 它们 参与 训练 数据 之 外 主题 的 对 话 的 能 力 。 第 12 章 更 详细 地 比较 了 聊天 机 器 
人 不 同 架构 的 表现 。 

除 康 奈 尔 电影 对 话语 料 库 之 外 , 还 有 各 种 免费 和 开源 的 训练 集 , 如 Deep Mind 的 问答 数据 集 
(DeepMind Q&A Dataset ) "。 当 大 家 想 要 自己 的 对 话 系统 在 特定 领域 中 能 够 有 效 地 回复 时 ， 需 要 
在 该 领域 的 语料库 中 对 其 进行 训练 。 思 想 向 量 只 有 有 限 的 信息 容量 ,需要 用 关于 聊天 机 器 人 熟悉 
的 主题 的 信息 来 填充 该 容量 。 

序列 到 序列 网 络 的 另 一 个 常见 应 用 是 机 器 翻译 。 思 想 向 量 的 概念 允许 翻译 程序 结合 输入 数 
据 的 上 下 文 ， 这 样 具有 多 种 含义 的 词 也 可 以 在 明确 的 上 下 文中 翻译 。 如 果 想 构建 翻译 应 用 程序 ， 
ManyThings 网 站 提供 了 可 以 用 作 训 练 集 的 句子 对 。 我 们 在 nlpia 包 中 为 大 家 提供 了 这 些 句 子 
对 。 例 如 ， 在 代码 清单 10-8 中 ， 对 于 英语 -德语 语句 对 ， 可 以 使 用 get_data ( 'deu-eng ' ) 替换 
get data('moviedialog')。 

由 于 输入 和 输出 的 字符 串 长 度 可 以 不 同 , 序列 到 序列 模型 也 非常 适用 于 文档 摘要 。 在 这 种 情 
况 下 ,编码 器 网 络 的 输入 是 , 例如 ， 新闻 报 道 (或 任何 其 他 长 度 的 文档 ) 而 解码 器 可 以 训练 生成 
标题 、 摘 要 或 其 他 任何 与 文档 相关 的 总 结 性 序列 。 序列 到 序列 网 络 可 以 提供 一 个 比 基 于 词 袋 向 量 
( bag-of-word ) 统计 的 摘要 方法 更 自然 的 文本 摘要 方式 。 如 果 读 者 对 开发 这 样 一 个 应 用 程序 感 兴 
趣 ，Kaggle 的 新 闻 摘要 比赛 提供 了 一 份 很 好 的 训练 集 。” 

序列 到 序列 网 络 并 不 局 限于 自然 语言 应 用 。 另 外 两 个 常见 应 用 是 自动 语音 识别 和 图 像 描述 。 














































































































Q@ 参见 本 书 GitHub 上 的 nlpia 包 文 档 中 的 对 话语 料 库 列表 (https://github.com/totalgood/nlpia/blob/master/docs/ 
notes/nlp--data.md#dialog-corpora )。 

@ Kaggle 是 一 个 著名 的 比赛 网 站 ， 上 面 有 各 种 各 种 的 比赛 任务 ， 新 闻 摘 要 (News Summary ) 是 其 中 的 一 
个 比赛 任务 。 一 一 译 者 注 

@) 详 见 标 题 为 “NEWS SUMMARY: Kaggle” 的 网 页 。 
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目前 ， 最 先进 的 自动 语音 识别 系统 使 用 序列 到 序列 网 络 将 语音 输入 幅度 样本 序列 转换 为 思想 向 
量 , 而 序列 到 序列 解码 带 将 思想 向 量 转 换 为 语音 的 文本 翻译 。 同 样 的 概念 也 适用 于 图 像 描 述 。 图 
像 像 素 序列 〈 无 论 图 像 分 辩 率 如 何 ) 可 以 用 作 编 码 器 的 输入 , 并且 可 以 训练 解码 器 生成 合适 的 描 
述 。 事 实 上 ， 大 家 可 以 在 网 上 找到 一 个 图 像 描述 和 问答 系统 的 组 合 应 用 程序 ， 称 为 可 视 化 问答 。 























10.7 小 结 


国 序列 到 序列 网 络 可 以 使 用 模块 化 、 可 复 用 的 编码 -解码 架构 来 构建 。 

国有 编码 需 模 型 生成 一 个 思想 向 量 ， 这 是 一 个 稠密 的 、 固 定 维度 的 向 量 ， 表 示 可 变 长 度 输 入 

序列 中 的 信息 。 

国 解码 器 可 以 使 用 思想 向 量 来 预测 〈 生 成 ) 输出 序列 ， 包 括 聊天 机 咒 人 的 回复 。 

由 于 思想 向 量 表示 的 存在 ， 因 此 输入 序列 和 输出 序列 长 度 不 需要 匹配 。 

田 思想 向 量 只 能 承载 有 限 的 信息 。 如 果 需 要 一 个 思想 向 量 来 编码 更 复杂 的 概念 ， 那 么 注意 
力 机 制 可 以 帮助 我 们 有 选择 地 编码 思想 向 量 中 的 重要 内 容 。 
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三 部 分 
进入 现实 世界 ( 现实 中 的 NLP 挑战 ) 





氏 筷 三 部 分 将 介绍 如 何 通 过 扩展 学 到 的 技能 来 解决 现实 世界 的 问题 。 在 本 部 分 中 我 
们 将 学 习 如 何 提取 日 期 和 姓名 等 信息 , 构建 Twitter 机 器 人 这 样 的 应 用 程序 , 来 
帮助 自助 调度 2017 年 和 2018 年 PyCon US 的 Open Space 活动 。 

最 后 三 章 还 将 讨论 更 环 手 的 NLP 问题 。 我 们 将 学 到 利用 几 种 不 同 的 方法 来 构建 一 个 
聊天 机 器 人 , 包括 基于 机 器 学 习 的 方法 和 不 基于 机 需 学 习 的 方法 。 为 了 创建 复杂 的 对 话 行 
为 ,我 们 将 学 习 如 何 将 上 述 技术 组 合 起 来 。 我们 还 将 了 解 一 些 算法 ,这 些 算法 可 以 处 理 那 
些 不 能 一 次 性 加 载 到 内 存 中 的 大 型 文档 集 。 









































QD PyCon US 是 在 美国 举办 的 Python 编程 语言 开发 者 社区 最 大 的 年 度 聚 会 ，Open Space 是 PyCon 参 会 者 自 
行 组 织 的 交流 会 。 一 一 译 者 注 
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本 章 主 要 内 容 

图 断 急 

图 命名 实体 识别 

图 数字 信息 提取 

图 词性 标注 和 依存 树 分 析 
图 交 辑 关系 提取 与 知识 库 

















为 了 构建 一 个 全 功能 的 聊天 机 器 人 , 我 们 需要 的 最 后 一 项 技能 是 从 自然 语言 文本 中 提取 信息 





或 者 知识 。 
1L1 命名 实体 与 关系 


我 们 希望 计算 机 能 够 从 文本 中 提取 信息 和 事实 ， 从 而 略微 理解 用 户 所 说 的 内 容 。 例 如 ， 当 用 户 说 
“提醒 我 星期 一 浏览 *******.org 网 站 。”， 我 们 希望 这 句 话 触发 当天 后 下 个 周一 的 日 程 或 者 提醒 的 操作 。 

要 触发 上 述 操作 ， 我 们 需要 知道 “我 ”代表 一 种 特定 类 型 的 命名 实体 ( named entity ): 人 。 
而 且 ， 聊 天 机 吉 人 应 该 知道 它 需 要 将 “我 ”替换 成 该 用 户 的 用 户 名 ， 达 到 文本 扩展 或 标准 化 的 目 
的 。 我 们 还 需要 聊天 机 器 人 知道 “*******.org” 是 一 个 缩写 的 URL ( URL 是 一 个 指 代 特 定 事物 






































名 称 的 命名 实体 )， 而 且 这 种 特定 类 型 的 命名 实体 的 标准 化 拼写 方式 可 能 是 “http://*******.Org” 





“https://*******.org”， 其 至 可 能 是 “https://www.*******.org”。 同 





样 地 ， 我 们 需要 聊天 机 器 人 明 


白 周一 是 一 周 中 的 某 一 天 〈 这 是 另 一 种 被 称 为 “时 间 ” 的 命名 实体 ), 并且 能 够 在 日 历 上 找到 它 。 
为 了 使 聊天 机 器 人 能 够 正确 地 响应 这 个 简单 请 求 ， 我 们 还 需要 它 能 够 提取 命名 实体 “我 ”和 





指令 “提醒 ”之 间 的 关系 。 聊 天 机 器 人 甚至 需要 识别 句子 的 隐 含 主题 (“ 你 ， 提 醒 我 .……” )， 其 














中 “你 ” 指 的 是 聊天 机 器 人 ， 即 另 一 个 类 型 为 人 的 命名 实体 。 而 且 我 们 需要 “告诉 ”聊天 机 器 人 ， 
日 程 或 者 提醒 是 在 将 来 发 生 的 ， 所 以 它 应 该 找到 下 周一 来 创建 提醒 。 























一 个 典型 的 句子 可 能 包含 几 种 不 同类 型 的 命名 实体 ， 例 如 地 更 


位 置 实体 、 组 织 、 人 物 、 政 治 




















实体 、 时 间 (包括 日 期 )、 人 工 制品 、 事 件 和 自然 现象 。 同 时 ,一 
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个 句子 也 可 以 包含 多 个 关系 ， 
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即 关 于 句子 中 命名 实体 之 间 关 系 的 事实 。 


11.1.1 知识 库 

除了 从 用 户 语句 对 应 的 文本 中 提取 信息 , 我 们 还 可 以 使 用 信息 提取 技术 来 帮助 聊天 机 器 人 进 
行 自我 训练 ! 如 果 使 用 聊天 机 器 人 在 大 型 语料库 〈 如 维基 百科 ) 上 进行 信息 提取 ,这 个 语料库 就 
可 以 生成 关于 这 个 世界 的 各 种 信息 ,从 而 指导 聊天 机 器 人 后 续 的 行为 和 动作 。 有 一 些 聊天 机 器 人 
通过 知识 库 记 录 提 取 的 所 有 信息 〈 通 过 安排 “家 庭 作业 ” 式 的 离线 阅读 )。 然 后 通过 查询 这 个 知 
识 库 ， 可 以 帮助 我 们 的 聊天 机 器 人 做 出 对 于 这 个 世界 更 加 准确 的 判断 或 推理 。 

聊天 机 器 人 还 可 以 存储 与 当前 用 户 的 “会 话 ”或 者 对 话 相关 的 知识 。 这 些 仅 和 当前 对 话 相 关 
的 知识 称 为 “上 下 文 "。 这 些 上 下 文 知 识 既 可 以 存储 在 聊天 机 器 人 后 台 的 统一 全 局 知识 库 中 ， 又 
可 以 存储 在 单独 的 知识 库 中 。 商 业 聊天 机 器 人 API (如 IBM 的 Watson 或 亚马逊 的 Lex ), 通常 将 
用 户 的 上 下 文 与 支持 和 其 他 所 有 用 户 聊天 的 全 局 知识 库 分 开 存储 。 

上 下 文 可 以 包含 关于 用 户 、 聊 天 室 或 频道 的 信息 , 或 者 当前 时 刻 的 天 气 和 新 闻 。 基 于 会 话 内 容 ， 上 
下 文 甚至 可 以 包含 聊天 机 器 人 自身 的 状态 变化 。 一 个 “自我 感知 ”的 例子 是 ， 智 能 聊天 机 器 人 应 该 跟踪 
它 已 经 告诉 用 户 的 所 有 事情 的 历史 记录 ， 或 者 它 已 经 向 用 户 提出 的 问题 的 历史 记录 ， 从 而 避免 重复 。 

这 就 是 本 章 的 目标 ， 即 教会 机 器 人 理解 输入 的 内 容 。 我 们 将 机 器 人 产生 的 这 种 理解 结果 放 人 
一 个 为 了 存储 知识 而 设计 的 灵活 数据 结构 中 。 然 后 我 们 的 机 器 人 可 以 利用 这 些 知识 做 决策 , 从 而 
在 回复 中 引入 更 多 对 现实 世界 的 理解 。 

除了 识别 文本 中 的 数字 和 日 期 等 简单 的 任务 ， 我 们 还 希望 机 器 人 能 够 提取 有 关 现 实 世 界 的 更 通用 
的 信息 。 而 且 我 们 希望 它 能 够 独立 完成 这 项 任务 ， 而 不 是 我 们 自己 把 关于 现实 世界 的 所 有 知识 都 “ 编 
程 ”输入 给 它 。 例 如 ， 我 们 和 希望 机 器 人 能 够 从 自然 语言 文档 中 学 习 ， 例 如 ， 维 基 百 科 中 的 这 个 句子 : 


In 1983, Stanislav Petrov, a lieutenant colonel of the Soviet Air Defense Forces, saved 






















































































the world from nuclear war. 
( 1983 年 ， 苏 联防 空 部 队 的 中 校 斯 坦 尼 斯 洛 夫 ， 彼得 罗 夫 ( Stanislav Petrov ) 使 世 
界 免 遭 了 核 战争 , ) 


如 果 我 们 在 历史 课 上 读 到 或 听 到 类 似 于 上 面 这 样 一 句 话 后 做 笔记 的 时 候 , 我 们 可 能 会 去 理解 
这 句 话 的 意思 , 同时 在 脑海 中 建立 各 种 概念 或 词 之 间 的 关系 。 我 们 可 能 会 把 这 句 话 简化 成 某 种 知 
识 ， 某 种 “从 句子 中 得 到 的 ”知识 。 我 们 希望 机 器 人 做 同样 的 事情 。 我 们 希望 它 “ 记 录 ” 它 所 学 
到 的 东西 ， 例 如 ， 斯 坦 尼斯 洛 夫 … 彼得 罗 夫 ( Stanislov Petrov ) 是 中 尉 ( lieutenant colonel ) 的 事 
实 或 知识 。 这 种 知识 可 以 存储 在 下 面 这 样 的 数据 结构 中 

('Stanislav Petrov', 'is-a', 'lieutenant colonel') 

这 个 例子 描述 了 两 个 命名 实体 节点 ( 'Stanislav Petrov' 和 'lieutenant coloel'), 
以 及 在 知识 图 谱 或 知识 库 中 它们 之 间 存 在 的 ('is-a' ) 关系 或 连接 。 当 上 述 关系 用 符合 知识 图 
谱 关 系 描述 格式 (relation description format，RDF ) 标准 的 形式 存储 时 ， 它 被 称 为 RDF 三 元 组 ( RDF 
triplet )。 一 般 而 言 , 这 些 RDF 三 元 组 存储 在 XML 文件 中 , 但 它们 也 能 存储 在 可 以 用 (主体 ,， 关系， 
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对 象 ) 形 式 记 录 三 元 组 图 形 关 系 的 任何 格式 文件 或 数据 库 中 。 

这 些 三 元 组 的 集合 称 为 知识 图 谱 (knowledge graph )。 上 述 集合 有 时 也 被 语言 学 家 称 为 本 体 
(ontology )“， 因 为 它 存储 了 关于 词 的 结构 化 信息 。 但 当 这 个 图 谱 表示 的 是 关于 世界 的 事实 而 不 仅仅 是 
词 时 , 它 被 称 为 知识 图 谱 或 知识 库 。 图 11-1 就 是 我 们 起 要 从 上 述 句子 中 提取 出 的 知识 图 谱 的 图 形 化 表示 。 


military rank 






























Lieutenant 
Colonel ~ 


Stanislov 全 is-a i ed 
全 organlzation 


@ 人》 
Petrov 






Soviet 
Air Defense Force 


@ person 

图 11-1 有 关 Stanislov 的 知识 图 谱 

图 11-1 上 方 的 is-a 关系 表示 一 个 无 法 直接 从 上 述 描述 Stanislav 的 句子 中 提取 出 的 事实 。 但 是 , 这 
个 lieutenant colonel ( 中 校 ) 是 军衔 (military rank ) 的 事实 可 以 基于 一 个 军事 组 织 (organization ) 成 员 
的 头衔 是 军衔 的 事实 推断 出 来 。 这 种 从 知识 图 谱 中 获取 事实 的 逻辑 操作 称 为 知识 图 谱 推断 (inference )。 
它 也 可 以 被 称 为 知识 库 查 询 ， 就 像 关 系数 据 库 查 询 一 样 。 对 于 像 Stanislav 军衔 的 这 种 特殊 推断 或 查询 ， 
我 们 的 知识 图 谱 必须 包含 关于 军队 和 军衔 的 事实 。 如 果 知 识 库 包含 关于 人 的 头衔 以 及 人 与 职业 (工作 ) 
关系 的 事实 ， 甚 至 可 能 也 会 有 所 和 帮助。 也许 现在 我 们 可 以 看 出 ， 相 比 于 没有 相关 知识 的 知识 库 ， 有 相 
关 知 识 的 知识 库 对 于 机 器 人 理解 上 面 这 句 话 的 帮助 更 大 。 如 果 没 有 这 种 知识 库 ， 那 么 像 上 面 这 样 一 个 
简单 的 句子 中 包含 的 许多 事实 ， 都 将 让 聊天 机 器 人 “ 摸 不 着 头脑 "。 大 家 甚至 可 以 说 ， 对 于 一 个 只 知道 
如 何 根据 随机 分 配 的 主题 对 文档 进行 分 类 的 机 器 人 “， 关 于 职业 等 级 的 问题 将 “超出 它 的 能 力 范围 "。 

这 个 问题 有 多 么 严重 , 也 许 不 是 那么 显而易见 , 但 这 确实 是 一 个 严重 的 问题 。 如 果 我 们 有 过 
与 一 个 不 理解 “which way is up”( 路 在 何方 ) “的 聊天 机 器 人 交谈 经 历 的 话 ， 我 们 就 会 理解 这 个 
问题 的 严重 性 。 人 工 智能 研究 中 最 令 人 生 旦 的 挑战 之 一 就 是 对 常识 知识 图 谱 的 编译 和 高 效 查询 。 
而 这 些 常识 在 我 们 的 日 常 对 话 中 被 视 为 理所当然 知道 的 东西 。 

人 类 其 至 在 获得 语言 技能 之 前 就 开始 获取 很 多 常识 ,我们 不 会 花费 自己 的 童年 时 光 去 撰写 为 
何 每 天 从 日 出 开始 、 并 在 日 落 之 后 睡觉 的 原因 。 我 们 也 不 会 在 维基 百科 中 编辑 为 何 只 能 用 食物 而 
不 是 泥土 或 千石 填 饱 肚子 的 文章 。 这 使 机 器 人 难以 找到 一 个 包含 常识 的 语料库 去 阅读 和 学 习 , 也 
不 存在 包含 常识 的 维基 百科 文章 供 机 器 人 进行 信息 提取 。 而 且 有 些 常 识 完全 是 与 生 俱 来 的 , 它们 
被 硬 编码 到 我 们 的 DNA 中 。 


































































































@ 一 般 认 为 ， 本体 更 偏 概念 之 间 的 关系 ， 而 知识 图 谱 则 倾向 于 表达 实体 之 间 的 关系 。 因 此 ， 这 两 者 有 较 大 
的 区 别 。 一 一 译 者 注 

@ 如 果 忘 了 如 何 随 机 分 配 主题 ， 参 见 第 4 章 。 

@@ “which way is up” 是 2008 年 发 布 的 一 款 单 人 游戏 。 一 一 译 者 注 

@ 有 些 硬 编码 的 、 常 识 性 的 知识 库 可 用 于 构建 我 们 的 知识 体系 。 谷歌 学 术 ( Google Scholar ) 是 我 们 在 知识 
图 谱 搜索 领域 的 好 伙伴 。 
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事物 与 人 之 间 存 在 着 各 种 各 样 的 事实 关系 ， 例 如 “是 ……: 类 别 ”( kind-of )、“ 被 用 来 ” 
( is-used-for )、“ 有 一 个 ”( has-a )、“ 因 …… 而 著名 ”( is-famous-for )、“ 出 生 于 ”( was-born )、“ 有 ……: 
经 验 ”( has-profession )。NELL ( Never Ending Language Learning )， 卡 内 基 梅 隆 大 学 的 一 个 永恒 
语言 学 习 的 机 器 人 ， 几 乎 完全 专注 于 提取 有 关 “ 是 …… 类 别 ”(kind-of ) 关系 的 信息 。 

大 多 数 知识 库 会 规范 化 上 述 表 示 关 系 定义 的 字符 串 ， 所 以 “是 …… 类 别 ”( kind-of ) 和 “是 …… 
类 型 ”( type-of ) 这 种 特定 关系 会 被 分 配 一 个 规范 化 的 字符 串 或 ID 来 表示 。 一 些 知识 库 也 会 规范 
化 知识 库 中 表示 对 和 象 的 名 词 。 因 此 ， 可 能 会 给 2-gram“Stanislav Petrov” 分 配 一 个 特定 ID。 "Stanislav 
Petrov” 的 同义词 ， 如 “S. Petrov” 和 “Lt Col Petrov”， 如 果 NLP 流水 线 认 为 他 们 指 的 是 同一 个 
人 ， 那 么 会 被 分 配 同一 个 ID。 

知识 库 可 用 于 构建 称 为 问答 系统 ( QA 系统 ) 的 实用 型 聊天 机 器 人 。 客 服 聊天 机 器 人 ， 包 括 
大 学 助教 机 器 人 ， 几 乎 完全 依赖 知识 库 来 生成 回复 。 问 答 系 统 非常 适合 帮助 人 们 找到 事实 型 信 
息 ， 从 而 解放 人 类 的 大 脑 去 做 它们 更 擅长 的 事情 , 例如 根据 事实 进行 概括 。 人 类 不 擅长 精确 地 记 
忆 事 实 , 但 善于 发 现 这 些 事实 之 间 的 联系 和 模式 , 后 者 是 机 器 人 尚未 掌握 的 东西 。 我 们 将 在 下 一 
章 中 详细 讨论 问答 系统 机 器 人 。 

































































11.1.2 信息 提取 


到 目前 为 止 , 我 们 已 经 了 解 到 “信息 提取 ”是 将 非 结构 化 文本 转换 为 存储 在 知识 库 或 知识 图 
谱 中 的 结构 化 信息 。 信 息 提取 是 自然 语言 理解 (natural language understanding，NLU ) 研究 领域 
的 一 部 分 ， 尽管 NLU 经 常 被 当 作 自 然 语 言 处 理 (NLP ) 的 同义词 使 用 。 

与 我 们 的 理解 可 能 不 同 ， 在 数据 科学 研究 中 ， 信 息 提取 或 者 NLU 代表 不 同 的 学 习 方式 。 它 
不 仅仅 是 无 监督 学 习 ， 甚 至 “模型 ”( 有 关 世 界 运 行 的 逻辑 ) 本 身 也 可 以 在 没有 人 为 干预 的 情况 
下 获得 。 我 们 不 是 授 “ 机 器 人 ”以 鱼 〈 事 实 )， 而 是 授 “ 机 器 人 ”以 渔 〈 提 取信 息 )。 尽 管 如 此 ， 
机 器 学 习 技 术 经 常用 来 训练 信息 提取 模型 。 




















142 正则 模式 


我 们 需要 一 种 模式 匹配 算法 , 该 算法 可 以 识别 与 模式 匹配 的 字符 序列 或 词 序 列 , 以 便 我 们 从 
较 长 的 文本 字符 串 中 “提取 ”它们 。 构 建 这 种 模式 匹配 算法 的 简单 方法 是 在 Python 中 ,使 用 一 
系列 让 /then 语句 在 字符 串 的 逐个 位 置 查找 该 符号 (单词 或 字符 ) 假设 我 们 想 在 语句 开头 找到 一 
些 常 见 的 问候 词 ， 例 如 “Hi”“Hello”“Yo”。 我 们 可 以 按照 代码 清单 11-1 进行 操作 。 

















代码 清单 11-1 硬 编码 在 Python 代码 中 的 模式 


>>> def find greeting(s): 
'" Return greeting str (Hi, etc) if greeting pattern matches """ 
if s[0] == 'H': 





@ 2016 年 ，GaTech 公司 的 人 工 智能 助教 。 
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Ef ol 3 Ln EH Ha 
return s[:2] 
Slif’ Sls6] i1r |'Hello”,: "Hell6 "Helle6."). "Hellol "3 
return s[:5] 
elif s[0] == 'Y': 
ll se nd 3 -En [ST YO Ty Yo Ty OL 
return s[:2] 
return Non 


代码 清单 11-2 展示 了 它 的 运行 效果 。 





代码 清单 11-2 脆弱 的 模式 匹配 示例 





>>> find greeting('Hi Mr. Turing!') 
rHi"' 

>>> find greeting('Hello, Rosa.') 
'Hello' 

>>> find greeting("Yo, what's up?") 
eR 

>>> find greeting ("Hello") 

'Hello' 

>>> print (find greeting ("hello")) 
None 

>>> print (find greeting ("HelloWorld")) 
None 


我 们 可 以 看 到 , 通过 这 种 方式 编写 模式 匹配 算法 十 分 烦琐 。 这 种 方式 甚至 不 像 上 面 示例 看 到 
的 那么 好 。 它 非常 脆弱 , 依赖 字符 串 中 字符 拼写 、 大 小 写 及 位 置 的 精确 表达 。 指 定 所 有 “分 隔 符 ” 
也 非常 环 手 ， 这 些 “ 分 隔 符 ”包括 标点 符号 、 空 白字 符 ， 或 者 要 查找 的 单词 两 边 的 字符 串 的 开头 
和 结尾 符号 (NULL 字符 )。 

大 家 可 能 已 经 想 出 一 种 方法 ,允许 指定 要 查找 的 不 同 单词 或 字符 串 ， 而 无 须 将 其 硬 编码 为 上 
述 Python 表达 式 。 大 家 甚至 可 以 在 单独 的 函数 中 指定 分 隔 符 ， 通 过 分 词 和 迭代 查找 技术 ， 可 以 
在 字符 串 的 任意 位 置 中 找到 待 查 词 ， 但 这 样 做 的 话 工 作 量 会 很 大 。 

幸运 的 是 ， 这 项 工作 早 就 已 经 完成 了 ! 模式 匹配 引擎 已 经 被 集成 到 大 多 数 现代 计算 机 语言 中 ， 
包括 Python。 它 被 称 为 正则 表达 式 (regular expression )。 正 则 表达 式 和 字符 串 插值 格式 化 表达 式 
(例如 ，"{:059}".format (42) )， 本 身 就 是 微型 编程 语言 。 这 种 用 于 模式 匹配 的 语言 称 为 正 
则 表达 式 语言 。Python 在 标准 库 包 re 中 有 一 个 正则 表达 式 解 释 器 (编译 器 和 运行 器 )。 因 此 ， 
我 们 将 使 用 它们 而 不 是 深层 般 套 的 Python if 语句 来 定义 上 述 模式 。 


















































11.2.1 正则 表达 式 


正则 表达 式 是 一 种 用 特殊 的 计算 机 语言 编写 的 字符 串 , 可 以 用 于 指定 匹配 算法 。 如 果 同 样 实 
现 上 述 匹配 模式 ， 使 用 正则 表达 式 要 比 编写 Python 代码 更 加 强大 、 灵 活 和 简洁 。 因 此 正则 表达 
式 是 许多 涉及 模式 匹配 的 NLP 问题 首选 的 模式 定义 语言 。 使 用 正则 表达 式 的 NLP 应 用 是 对 原先 
用 于 编译 和 解释 形式 语言 (计算 机 语言 ) 的 扩展 。 
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正则 表达 式 定 义 有 限 状 态 机 或 FSM 一 一 关于 符号 序列 的 “ithen ”决策 树 , 例如 代码 清单 11-1 
中 的 find_greeting () 函数 。 序 列 中 的 符号 被 逐个 输入 FSM 决策 树 中 。 对 诸如 ASCII 字符 串 
或 一 系列 英语 单词 之 类 的 符号 序列 进行 处 理 的 有 限 状 态 机 称 为 语法 。 它们 也 被 称 为 形式 语法 ,以 
便 和 我 们 在 语法 学 校 学 到 的 自然 语言 语法 规则 区 分 开 来 。 

在 计算 机 科学 和 数学 中 ,“ 语 法 ”一 词 指 的 是 一 组 规则 ,用 于 确定 符号 序列 是 否 是 特定 语 
言 的 合法 成 员 ， 这 些 语言 通常 称 为 计算 机 语言 或 形式 语言 。 计 算 机 语言 或 形式 语言 是 与 定义 
该 语言 的 形式 语法 匹配 的 所 有 语句 集 。 这 是 一 种 循环 定义 ， 但 这 有 时 就 是 数学 的 工作 方式 。 
如 果 大 家 不 熟悉 像 r' .\、 *' 和 r'a-z' 这 样 的 基本 正则 表达 式 语法 和 符号 ， 可 以 根据 需要 查 
看 附录 B。 

































































11.2.2 ”把 信息 提取 当 作 机 器 学 习 里 的 特征 提取 任务 


我 们 回 到 第 1 章 , 那里 第 一 次 提 到 了 正则 表达 式 。 但是, 大 家 是 否 从 第 1 章 末 尾 的 基于 语法 
的 NLP 方法 转向 了 支持 基于 机 融 学 习 和 数据 驱动 的 方法 ? 为 什么 要 再 次 使 用 硬 编码 (手动 编写 ) 
的 正则 表达 式 和 模式 ? 这 是 因为 基于 统计 或 数据 驱动 的 NLP 方法 存在 局 限 性 。 

我 们 希望 机 器 学 习 流 水 线 能 够 执行 一 些 基 本 操作 ， 例 如 回答 逻辑 问题 ， 或 根据 NLP 指令 执 
行 诸如 安排 会 议 日 程 等 操作 。 但 这 些 场 景 下 机 器 学 习 往往 达 不 到 预期 效果 。 我 们 很 少 有 标注 好 的 
训练 集 , 能 够 涵盖 人 们 用 自然 语言 可 能 提出 的 所 有 问题 的 答案 。 男 外 ， 正 如 我 们 在 后 面 将 要 看 到 
的 ,我 们 可 以 定义 一 组 紧凑 的 条 件 检查 ( 正则 表达 式 ) 以 从 自然 语言 字符 串 中 提取 关键 的 信息 。 
这 种 方法 可 以 解决 很 大 一 部 分 问题 。 

模式 匹配 ( 和 正则 表达 式 ) 仍然 是 最 好 的 信息 提取 方法 。 即 使 使 用 机 器 学 习 方法 进行 自然 语 
言 处 理 , 我 们 也 需要 完成 特征 工程 。 我 们 需要 创建 词 袋 模型 或 词 伐 和 表示， 从 而 将 自然 语言 文本 
中 近乎 无 限 可 能 的 语义 压缩 到 计算 机 可 以 轻松 处 理 的 向 量 中 。 信息 提取 只 是 从 非 结构 化 自然 语言 
数据 中 提取 机 顺 学 习 特 征 的 另 一 种 形式 ， 例 如 创建 单词 模型 或 在 该 词 袋 模 型 上 进行 PCA。 这 些 
模式 和 特征 也 同样 用 于 最 先进 的 自然 语言 机 顺 学 习 流 水 线 ， 例 如 谷歌 智能 助理 、Siri 、 亚 马 逊 的 
Alexa 和 其 他 最 好 的 聊天 机 器 人 。 

言 息 提取 用 于 找到 那些 我 们 希望 聊天 机 器 人 拥有 的 “在 嘴 边 却 又 说 不 出 来 ”的 语句 和 信息 。 
我 们 可 以 事先 通过 信息 提取 来 填充 知识 库 的 内 容 。 或 者 ， 当 询问 聊天 机 器 人 问题 或 查询 搜索 引 
擎 时 ,信息 提取 可 以 用 来 按 需 查找 语句 和 信息 。 当 提前 构建 知识 库 时 ， 可 以 优化 数据 结构 以 便 
在 更 大 的 知识 领域 内 更 快 地 进行 查询 。 预 构建 知识 库 使 聊天 机 器 人 能 够 快速 响应 有 关 更 广泛 信 
息 的 问题 。 如 果 信 息 检索 是 随 着 查询 聊天 机 器 人 实时 进行 的 ， 这 一 般 被 称 为 “搜索 ”"。Google 
和 其 他 搜索 引擎 结合 了 这 两 种 技术 ， 如果 查询 知识 图 谱 ( 知识 库 ) 找 不 到 需要 的 信息 ， 则 回 退 
到 文本 搜索 。 我们 在 学 校 学 到 的 许多 自然 语言 语法 规则 都 可 以 使 用 形式 语法 进行 编码 ,该 形式 
语法 由 在 对 词 或 者 代表 词性 的 符号 进行 操作 。 英 语 可 以 被 认为 是 构成 上 述 语言 的 单词 和 语法 规 
则 。 或 者 我 们 可 以 将 其 视 为 可 以 说 出 的 所 有 可 能 语句 的 集合 ,这 些 语句 被 英语 使 用 者 认为 是 有 
效 的 。 
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这 带 来 了 形式 语法 和 有 限 状 态 机 的 男 一 个 特性 ， 它 将 在 NLP 中 派 上 用 场 。 计 算 机 可 以 通过 
两 种 方式 使 用 形式 语法 : 

国 识别 与 该 语法 匹配 的 字符 串 ; 

加 通过 该 语法 生成 新 的 符号 序列 。 

我 们 不 仅 可 以 使 用 模式 ( 正则 表达 式 ) 从 自然 语言 中 提取 信息 ,还 可 以 在 聊天 机 器 人 中 使 用 
这 些 模式 ， 从 而 让 聊天 机 器 人 “说 出 ”与 该 模式 匹配 的 内 容 ! 下 面 我 们 将 向 大 家 展示 如 何 使 用 名 
为 rstr 的 软件 包 来 完成 一 些 信息 提取 模式 。 

这 些 用 于 模式 匹配 的 形式 语法 和 有 限 状态 机 方法 还 有 一 些 很 酷 的 功能 。 一 个 真正 的 有 限 状 态 
机 可 以 保证 始终 在 有 限时 间 内 运行 (停止 ) 它 一 定 会 告诉 我 们 是 否 在 字符 串 中 找到 了 匹配 项 。 
它 永远 不 会 陷入 死 循环 …… 只 要 我 们 不 使 用 正则 表达 式 引 擎 的 某 些 高 级 功能 , 这 些 功 能 允许 我 们 
“ 作 次 ”并 将 死 循环 添加 到 我 们 的 有 限 状 态 机 中 。 

因此 ,我 们 将 使 用 不 包括 “后 向 环视 ”或 “前 向 环视 ”这 类 作弊 方式 的 正则 表达 式 。 我 们 将 
确保 我 们 的 正则 表达 式 匹 配 右 会 处 理 每 个 字符 并 且 只 有 当 它 匹配 时 才 移 动 到 下 一 个 字符 一 一 有 
点 儿 像 一 个 严格 的 列车 管理 员 沿 着 座位 检查 车 票 。 如 果 乘 客 没有 车 票 , 列车 管理 员 会 停 下 并 宣布 
发 现 了 问题 , 有 人 没有 车 票 ， 他 不 再 继续 向 前 查 或 者 向 后 查 ， 直 到 他 解决 了 眼前 的 问题 。 对 列车 
乘客 或 严格 的 正则 表达 式 而 言 ， 没 有 “ 回 退 ” 或 “ 跳 过 ”一 说 。 































































































1L3 值得 提取 的 信息 
如 下 一 些 关键 的 定量 信息 值得 “手写 ”正则 表达 式 : 









































国 GPS 位置; 

四 日 期 ; 

国 价格 ; 

图 数字 。 

和 上 述 可 以 通过 正则 表达 式 轻松 捕获 的 信息 相 比 , 其 他 一 些 重要 的 自然 语言 信息 需要 更 复杂 
的 模式 : 


加 问题 触发 词 ; 
图 问题 日 标 词 ; 
加 命名 实体 。 


11.3.1 提取 GPS 位 置 


GPS 位 置 是 我 们 希望 通过 正则 表达 式 从 文本 中 提取 的 各 种 数值 类 数据 的 典型 代表 。GPS 位 置 
具有 成 对 的 经 度 和 纬度 数值 。 它 们 有 时 还 包括 第 三 个 数值 ， 如 高 度 或 海拔 高 度 , 但 我 们 暂时 忽略 














人 详 见 标题 为 “leapfrogdevelopment /rstr 一 Bitbucket” 的 网 页 。 
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它 。 我 们 只 提取 十 进 制 的 经 度 /纬度 对 , 用 度数 表示 。 这 种 模式 适用 于 许多 谷歌 地 图 的 URL 地 址 。 
虽然 严格 说 URL 不 是 自然 语言 ， 但 它们 通常 是 非 结 构 化 文本 数据 的 一 部 分 ， 并 且 我 们 希望 提取 
这 种 信息 ， 从 而 让 我 们 的 聊天 机 器 人 能 够 像 了 解 事物 一 样 了 解 位 置信 息 。 

我 们 使 用 前 面 例子 中 的 十 进 制 数字 模式 , 但 增加 更 多 约束 ,确保 该 值 在 纬度 (+90”) 和 经 度 
(+180”) 的 有 效 范围 内 。 最 北 到 北极 (+90" )， 最 南 到 南极 〈-90” )。 如 果 我 们 从 英格兰 格林 尼 
治 的 东经 180”( 经 度 +180”) 起 航 ， 我 们 将 到 达 国 际 日 期 变更 线 ， 那 里 也 是 格林 尼 治 的 西 经 180° 
( 经 度 -180”)。 代 码 清单 11-3 中 给 出 的 是 具体 代码 。 
































代码 清单 11-3 ”GPS 坐标 的 正则 表达 式 


>>> import re 





>>> lat = (e092L0-9] [a0] [0=91{2710})" 
> "Lon -ECES]LE 人 Os LO0S9] | :O59] {210° 
>>> sep = r'[E,/ ]{1,3}"' 


>>> re gps = re.compile(lat + sep + lon) 


>>> re gps.findall('http://...maps/@34.0551066,-118.2496763...') 
[(34.0551066, -118.2496763)] 


>>> re gps.findall ("Zig Zag Cafe is at 45.344, -121.9431 on my GPS.") 
[D340 :2943 ] 


数值 类 数据 很 容易 提取 ， 特 别 是 当 数 字 是 可 机 读 字 符 串 的 一 部 分 的 时 候 。URL 和 其 他 可 机 
读 字符 串 以 可 推测 的 顺序 、 格 式 或 单位 放置 纬度 和 经 度 等 数字 , 为 提取 提供 了 方便 。 上 述 模式 还 
可 以 处 理 一 些 超出 真实 世界 的 纬度 和 经 度 值 ， 它 可 以 较 好 地 处 理 我 们 从 地 图 Web 应 用 程序 (如 
OpenMapStreet ) 中 复制 的 大 部 分 URL。 

但 日 期 怎么 处 理 ? 正则 表达 式 适 用 于 日 期 吗 ? ”如果 我 们 希望 我 们 的 日 期 提取 器 能 够 在 欧 
洲 和 美国 使 用 ， 而 这 两 个 地 方 的 日 /月 的 顺序 经 常 颠 倒 应 该 怎么 办 ? 





























11.3.2 ”提取 日 期 


提取 日 期 比 提取 GPS 坐标 要 难得 多 。 日 期 更 接近 自然 语言 ， 可 以 通过 不 同 的 方言 表达 相似 
的 事物 。 在 美国 , 2017 年 圣诞 节 的 表示 是 “12/25/17”。 而 在 欧洲 , 同一 个 日 子 却 表 示 为 “2S/12/17”。 
我 们 可 以 检查 我 们 的 用 户 区 域 设 置 , 并 假设 在 同一 个 区 域 ， 日 期 表示 方式 是 一 样 的 。 但 这 种 假设 
可 能 在 实际 中 是 不 成 立 的 。 

因此 ， 大 多 数 日 期 和 时 间 提 取 需 尝试 适 配 上 面 两 种 日 /月 的 表示 顺序 ， 并 检查 以 确保 是 有 效 
的 日 期 。 这 也 是 当 我 们 看 到 这 样 的 日 期 时 大 脑 的 工作 方式 。 即 使 你 是 美国 英语 使 用 者 ， 而 且 圣 诞 
节 期 间 你 在 布鲁塞尔 ， 你 也 能 认 出 “25/12/17” 是 一 个 假期 ， 因 为 一 年 只 有 12 个 月 。 

这 种 在 计算 机 编程 中 适用 的 “鸭子 类 型 ”( duck-typing ) 方法 也 适用 于 自然 语言 。 如 果 它 看 
起 来 像 一 只 鸭子 并 且 表 现 得 像 一 只 鸭子 , 那么 它 可 能 就 是 一 只 鸭子 。 如 果 它 看 起 来 像 日 期 并 且 表 
现 得 像 日 期 ， 那 么 它 可 能 就 是 日 期 。 我 们 将 在 其 他 自然 语言 处 理 任 务 中 也 使 用 这 种 “ 先 斩 后 奏 ” 
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的 方法 。 我 们 将 尝试 一 系列 方法 并 选择 结果 正确 的 方法 。 我 们 将 尝试 使 用 提取 带 或 生成 恬 ， 然 后 
在 其 上 运行 验证 器 来 判断 它 是 否 合理 。 

对 聊天 机 器 人 来 说 , 这 是 一 种 特别 强大 的 方法 ， 人 允许 我 们 组 合 多 个 自然 语言 生成 器 的 最 佳 结 
果 。 在 第 10 章 中 ,我 们 使 用 LSTM 生成 了 一 些 聊 天 机 器 人 的 回复 。 为 了 改善 用 户 体验 ， 我 们 可 
以 生成 大 量 回复 并 选择 具备 最 佳 拼写 、 语 法 和 情感 的 回复 ， 参 见 代 码 清单 11-4。 我 们 将 在 第 12 
章 中 详细 讨论 这 一 点 。 


代码 清单 11-4 ”美国 日 期 的 正则 表达 式 





>>> us = r'((([01]?\d) [-/] ([0123]?3\d)) ([-/] ([0123]\d) \d\qd) ?)' 
>>> mdy = re.findall (us, 'Santa came 12/25/2017. An elf appeared 12/12.') 
>>> mdy 


1 (112/25/2017', 112/25', 112', 125', 1/2017', '20'), 
CO /LT,, DITES, ro a 
通过 把 月 、 日 和 年 转换 为 整数 并 使 用 有 意义 的 名 称 标注 这 些 数字 信息 , 我 们 可 以 使 用 列表 解 
析 式 (list comprehension ) 为 提取 的 数据 提供 结构 化 表示 ， 如 代码 清单 11-5 所 示 。 


代码 清单 11-5 ”结构 化 提取 的 日 期 


>2> rdates 二 [:{ "ndy s gL "My oR EL] Mm nt (2) Td Ln GL3] 

i ye Tint(x[4] Letrip( A) Or 0 Ves .intl(xtol :Or. 0) -for “x -Tn mady] 
>>> dates 
(mady TZOZOLIT ;AMY Sho Ms TO SZ Ys OL MOM 20F.; 

人 

即使 对 于 这 些 简单 的 日 期 也 不 可 能 设计 一 个 可 以 处 理 “12/12” 这 个 日 期 中 存在 的 歧义 的 
正则 表达 式 。 日 期 表示 中 往往 存在 含糊 不 清 的 情况 , 只 有 人 可 以 通过 使 用 圣诞 节 相 关 的 知识 或 作 
者 的 意图 来 猜测 。 例 如 ,“12/12” 可 能 表示 : 

加 2017 年 12 月 12 日 一 一 基于 指 代 消 解 估 计 得 到 的 年 份 的 月 /日 格式 ; 

量 2018 年 12 月 12 日 一 一 出 版 时 当年 年 份 的 月 /日 格式 ; 

加 2012 年 12 月 一 一 2012 年 的 月 /年 格式 。 

因为 月 /日 在 美国 日 期 和 我 们 的 正则 表达 式 中 都 出 现在 年 份 的 前 面 ， 所 以 “12/12” 被 认为 是 

某 个 未 知 年 份 的 12 月 12 日 。 我 们 可 以 使 用 在 内 存 的 结构 化 数据 的 上 下 文中 最 近 读 取 到 的 年 份 来 

填充 任何 缺失 的 数字 字段 ， 如 代码 清单 11-6 所 示 。 


代码 清单 11-6 ”基本 的 上 下 文 管理 


>>> for i, d in enumerate (dates): 


for k, Vv in d.items(): 这 段 代 码 可 以 正常 运行 是 因为 字 
0)] [Kk] 








if not v: 典 和 列表 都 是 可 变 的 数据 类 型 
d[k] = dates[max(i - 1， 














@ Imran Q. Sayed 在 斯 坦 福 大 学 CS224N 课程 中 关于 指 代 消解 的 议题 (参见 下 载 资源 中 的 project_report.pdf )。 
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>>> dates 


Etnaoy Te IDO/2D/ ZO My oA/ LO/ DD SM To Ms Zo Myo TOL Os 
{my ZA my VL Wm 2 OL > es 7 20 

>>> from datetime import date 

>>> datetimes = [date(d['y'], d['m'], d['d']) for d in dates] 


>>> datetimes 
[datetime.date(2017, 12, 25), datetime.date(2017, 12, 12)] 


上 面 是 从 自然 语言 文本 中 提取 日 期 信息 的 基本 但 相当 和 鲁 棒 的 方法 。 如果 将 该 方法 用 作 生 产 系 
统 的 日 期 提取 器 ， 还 需要 做 的 主要 工作 是 添加 一 些 适 用 于 我 们 应 用 程序 的 异常 捕获 和 上 下 文 管 
理 。 如 果 你 能 发 起 拉 取 请 求 (pull request，PR ) 将 上 述 功 能 添加 到 nlpia 包 ， 我 相信 读者 会 很 
感激 。 如 果 你 经 常 添加 一 些 提取 器 ， 那 么 你 就 是 英雄 。 

我 们 可 以 通过 一 些 硬 编码 逻辑 来 处 理 极端 情况 以 及 月 甚至 日 的 自然 语言 名 称 。 但 是 再 复杂 的 
逻辑 也 无 法 处 理 “12/11” 中 存在 的 日 期 歧义 ， 它 可 能 是 : 

国 在 某 个 你 看 到 或 听 到 过 年 份 的 12 月 11 日 ; 

加 11 月 12 日 ， 如 果 在 伦敦 或 塔 斯 马 尼 亚 州 的 朗 塞 斯 顿 ( 一块 联邦 领土 ) 听 到 的 话 ; 

加 2011 年 12 月 ， 如 果 在 美国 报纸 上 看 到 的 话 ; 

田 2012 年 11 月 ， 如 果 在 欧盟 报纸 上 看 到 的 话 。 

即使 是 人 脑 也 无 法 解决 一 些 自然 语言 的 歧义 问题 。 但 是 , 我 们 需要 确保 我 们 的 日 期 提取 器 可 
以 通过 在 正则 表达 式 中 颠倒 月 和 日 来 处 理 欧洲 日 /月 顺序 的 日 期 。 具 体 做 法 参见 代码 清单 11-7。 




































































代码 清单 11-7 ”欧洲 日 期 的 正则 表达 式 





>>> eu = r'((([0123]?\d) [-/] ([01]?\d)) ([-/] ([0123]\d)?\d\d)?)" 
>>> dmy = re.findall (eu, 'Alan Mathison Turing OBE FRS (23/6/1912-7/6/1954) \ 
i was an English computer scientist.') 
>>> dmy 
CO LOL2T; T2376 7 M2 VOLp ALOL2Y; "LO. 

(TAOSL OTA 类 GT 6 LODd Ts 全 由 
>>> dmy = re.findall (eu, 'Alan Mathison Turing OBE FRS (23/6/12-7/6/54) \ 
was an English computer scientist.') 





>>> dmy 


[(*23/6/12'; *23/6, "23'y “6 /12 Tt);y 
| 


正则 表达 式 能 够 正确 地 从 维基 百科 的 摘要 页 中 提取 图 灵 的 出 生日 期 和 去 世 日 期 。 但 其 实 我 们 
在 上 面 的 例子 中 作 浆 了 ,在 测试 上 例 维基 百科 句子 的 正则 表达 式 之 前 ， 我 们 将 月 份 “June” 转 换 
成 了 数字 6。 所 以 这 不 是 一 个 真实 的 例子 。 如 果 没 有 指定 世纪 ， 我 们 在 处 理 年 份 的 时 候 仍然 会 有 
歧义 。54 年 是 指 1954 年 还 是 2054 年 呢 ? 我 们 希望 聊天 机 器 人 能 够 从 没有 经 过 人 工 预 处 理 的 维 
基 百 科 文 章 中 提取 日 期 ,从 而 可 以 研读 著名 人 物 信息 并 学 习 导 入 日 期 。 如 果 和 希望 我 们 的 正则 表达 
式 能 够 处 理 更 自然 的 像 维基 百科 文章 中 出 现 的 日 期 信息 , 我 们 需要 在 日 期 提取 正则 表达 式 中 添加 
诸如 “June”( 及 其 其 所 有 缩写 ) 之 类 的 单词 。 

我 们 不 需要 任何 特殊 的 符号 来 表示 词组 ( 按 顺 序 组 合 在 一 起 的 字符 )。 完 全 按照 这 些 词 
组 在 输入 中 的 拼写 顺序 ， 我 们 可 以 直接 把 它们 写 到 正则 表达 式 中 ， 包 括 大 小 写 。 我 们 所 要 
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做 的 就 是 在 正则 表达 式 中 用 一 个 OR 符号 〈|) 隔 开 这 些 词组 。 而 且 我 们 需要 确保 这 个 正则 
表达 式 既 可 以 处 理 美 国 月 /日 的 日 期 格式 ， 也 可 以 处 理 欧盟 的 日 期 格式 。 我 们 将 这 两 个 等 同 
的 日 期 “拼写 ”添加 到 正则 表达 式 中 ， 并 在 它们 之 间 使 用 一 个 大 大 的 OR (|) 作为 正则 表 
达 式 中 决策 树 的 分 支 。 

我 们 使 用 一 些 命名 分 组 来 帮助 我 们 识别 像 1984 年 的 “84” 和 2008 年 的 “08” 这 样 的 年 份 。 
我 们 尝试 更 准确 地 表示 想 要 匹配 的 4 位 数 年 份 , 从 过 去 的 元 年 0 年 "到 未 来 的 2399 年 。 详 见 代码 
清单 11-8。 


代码 清单 11-8 识别 年 份 


>>> YL 19xX = ( 
r'\b(?P<yr_ 19xx>' + 
'|'.join('{}'.format (i) for i in range(30, 100)) + 
r! ) \p' 
: 两 位 数 表示 的 年 份 ， 


>>> yr 20xx = ( 30-99 = 1930-1999 
rNB(2PXYyr 20xx3 填 























VITOLm( 02 tormat(r) for i Ln rangetio)y TF 
"1'.join('{}'.format (i) for i in range (10, 30)) + 
r') \b’ 一 位 或 者 两 位 数 表示 的 年 份 ， 3 位 数 或 者 4 位 数 表示 的 年 份 的 前 
3 ) 01-30 = 2001-2030 几 位 数字 , 如 “123 A.D.” 中 的 “1” 
>>> yr_cent = r'\b(?P<yr cent>' + '|'.join( 或 者 “2018” 中 的 “20” 
a '{}'.format (i) for i in range(1l, 40)) + r')' 
>>> yr_ccxx = r'(?P<yr ccxx>' + '|'.joinl( 
pg. '{:02d}'.format (i) for i in range(0, 100)) + r')\b' 
>>> yr _ xxxx = r'\b(?P<yr xxxx>(' + yr cent + ')(' + yr ccxx + r'))\b' 
We 3 位 数 或 者 4 位 数 表示 的 年 份 的 后 
i r'\b(?P<yr>' + pk ¢ » coop 
i 和 两 位 数字 , 如 “123 A.D.” 中 的 “23 
Vr lL9XK EV yr 20XR 4 | Yr x 、 册 二 
rr Nb， 或 者 “2018” 中 的 “18 


Ss a = listl(re.finditer\( 

本 yr; Or 2000F 01 "O08, ‘99 了 984 2030/1970 B85 47 66")) 

>>> full years = [g['yr'] for g in groups] 

>>> full years 

[2000y TOL 08» 99 "19847; "2030T; "1970 T8950 p 47 166] 

仅仅 是 使 用 正则 表达 式 中 一 些 简 单 的 年 份 规 则 , 还 没有 用 到 Python, 工作 量 就 很 大 了 。 不 过 
不 用 担心 ， 软 件 包 可 用 于 识别 常见 的 日 期 格式 。 它 们 更 精确 〈 更 少 的 误 匹 配 )、 更 通用 (更 少 的 
漏 匹 配 )。 所 以 我 们 不 需要 自己 编写 复杂 的 正则 表达 式 。 上 面 的 示例 仅 为 我 们 提供 一 种 可 以 遵循 
的 模式 ， 以 防 我 们 将 来 需要 使 用 正则 表达 式 提取 特定 类 型 的 数字 。 在 货币 数值 和 IP 地 址 提取 的 
例子 中 ， 带 有 命名 分 组 的 更 复杂 的 正则 表达 式 可 能 会 派 上 用 场 。 

在 维基 百科 日 期 中 ， 我 们 在 提取 图 灵 生 日 时 添加 月 份 名 称 对 应 的 模式 “June” 或 者 “Jun ， 
来 完成 正则 表达 式 以 提取 日 期 ， 如 代码 清单 11-9 所 示 。 























@ 详 见 标题 为 “Year zero” 的 网 页 。 
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代码 清单 11-9 用 正则 表达 式 识 别 月 份 名 称 


>>> mon words = 'Uanuary February March April May June July ' \ 
a 'August September October November December' 
>>> mon = (r'\b( + '|'.join('{}I{}1{}1{}1{:02d}' .format( 
be 0 
= enumerate (mon words.split())) + 
rr) No) 


>>> re.findall (mon, 'January has 31 days, February the 2nd month 
= of 12, has 28, except in a Leap Year.') 
['January', ‘'February', '12°'] 


大 家 知道 如 何 将 这 些 正则 表达 式 组 合成 一 个 可 以 处 理 欧盟 和 美国 日 期 格式 的 大 型 表达 式 
吗 ? 一 个 难点 是 我 们 不 能 为 分 组 ( 正则 表达 式 中 的 括号 内 的 部 分 ) 复 用 相同 的 名 称 。 所 以 我 们 不 
能 在 美国 和 欧盟 对 应 的 月 份 和 年 份 的 命名 正则 表达 式 之 间 使 用 OR。 此 外 ， 表 达 式 中 需要 包含 日 、 
月 和 年 之 间 任 意 分 隔 符 的 模式 。 

代码 清单 11-10 中 给 出 的 是 一 个 满足 上 述 需求 的 例子 。 


代码 清单 11-10 ”组 合 信息 提取 正则 表达 式 





>>> day = r'|'.join('{:02d}|{}'.format (i, i) for i in zange(1，32)) 

>>> eu = (r'\b(' + day + r')\b[-,/ ]{0,2}\b(' + 

i mon + r')\b[-,/ ]{0,2}\b(' + yr.replace('<yr', '<eu yr') + r')\b') 
>>> us = (r'\b(' + mon + r')\b[-,/ ]{0,2}\b(" + 


es day + r')\b[-,/ ]{0,2}\b(' + yr.replace('<yr', '<us yr') + r')\b') 
>>> date pattern = r'\b(' +eu+'|'+us+r')\b!' 


>>> list(re.finditer (date pattern, '31 Oct, 1970 25/12/2017')) 
[<_sre.SRE Match object; span=(0, 12), match='31 Oct, 1970'>, 
<_sre.SRE Match object; span=(13, 23), match='25/12/2017'>] 


最 后 ， 我 们 需要 验证 提取 的 日 期 ， 看 看 这 个 日 期 是 否 可 以 转换 为 有 效 的 Python datetime 
对 象 ， 代 码 如 代码 清单 11-11 所 示 。 


代码 清单 11-11 验证 日 期 





>>> import datetime 
>>> dates = [] 
>>> for g in groups: 
month num = (g['us mon'] or gl['eu mon']).strip!() 
trey 
month num = int (month num) 
except ValueError: 
month num = [w[:len (month num)] 
for w in mon words].index (month num) + 1 
date = datetime.datel( 
int(g['us yr'] or gl'eu yr']), 
month_num, 
int(g['us day'] or gl'eu day'])) 
dates.append (date) 
>>> dates 
[datetime.date(1970, 10, 31), datetime.date(2017, 12, 25)] 
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我 们 的 日 期 提取 器 看 起 来 运行 正常 ， 至 少 在 几 个 简单 的 、 无 层 义 的 日 期 上 是 这 样 。 思 考 一 下 ， 
像 Python-dateutil 和 datefinder 这 样 的 软件 包 是 如 何 处 理 歧义 和 像 “ 今 天 ”和 “下 周一 ” 
这 样 更 接近 于 “自然 ”语言 的 日 期 的 。 如 果 你 认为 做 得 可 以 比 这 些 软件 包 更 好 ,请 给 他 们 发 送 一 
个 拉 取 请 求 ! 

如 果 我 们 只 想 要 一 个 最 先进 的 日 期 提取 器 ， 基 于 统计 ( 机 器 学 习 ) 的 方法 将 能 够 更 快 
地 满足 需求 。 谷 歌 的 Stanford Core NLP SUTime 库 和 aqateutil.parser.parse 是 目前 
最 好 的 。 
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到 目前 为 止 ， 我 们 只 关注 提取 环 手 的 名 词 实例 ， 如 日 期 和 GPS 经 纬度 ， 而 且 我 们 主要 使 用 
数字 模式 来 进行 提取 。 现 在 是 时 候 处 理 从 自然 语言 中 提取 知识 这 个 难题 了 。 

我 们 希望 机 器 人 通过 阅读 维基 百科 等 知识 百科 全 书 来 了 解 有 关 世 界 的 知识 , 我 们 还 希望 机 带 
人 能 够 将 这 些 日 期 和 GPS 坐标 与 其 阅读 到 的 实体 联系 起 来 。 

你 的 大 脑 从 维基 百科 的 这 个 句子 中 提取 了 哪些 知识 ? 


























On March 15, 1554, Desoto wrote in his journal that the Pascagoula people ranged as 
far north as the confluence of the Leaf and Chickasawhay rivers at 30.4, —88.5. 

(1554 年 3 月 15 日 , 迪 索 托 在 他 的 日 记 中 写 道 ， 帕 斯 卡 古 拉 人 向 北 到 达 了 位 于 (30.4， 
-88.5) 的 利夫 河和 奇 克 索 韦 河 的 交汇 处 。) 


我 们 可 以 将 提取 到 的 日 期 和 GPS 坐标 , 以 及 Desoto、Pascagoula 和 两 条 不 知道 怎么 读 的 河流 
联系 起 来 。 我 们 希望 机 器 人 ( 以 及 我 们 的 大 脑 ) 能 够 将 这 些 知识 与 更 多 知识 关联 起 来 ， 例 如 ， 
Desoto 是 一 个 西班牙 征服 者 , 而 Pascagoula 人 是 一 个 和 平 的 美洲 原 住民 部 落 。 而 且 我 们 希望 日 期 
和 位 置 与 正确 的 “事物 ”关联 : Desoto 以 及 两 条 河流 的 交汇 点 。 

这 是 大 多 数 人 在 听 到 自然 语言 理解 这 个 术语 时 所 想到 的 。 要 理解 一 条 语句 ， 我 们 需要 能 够 从 中 
提取 关键 信息 并 将 其 与 相关 知识 关联 。 对 于 机 器 ， 我 们 将 该 知识 存储 在 知识 图 谱 中 ， 这 个 知识 图 谱 
也 称 为 知识 库 。 知 识 图 谱 的 边 是 事物 之 间 的 关联 ， 知 识 图 谱 的 节点 是 从 语料库 中 提取 的 名 词 或 对 象 。 

我 们 用 于 提取 上 述 人 物 关 系 〈 或 事物 关系 ) 的 模式 是 一 种 类 似 于 主 谓 宾 (SUBJECTVERB- 
OBJECT ) 的 模式 。 要 识别 这 些 模式 ， 我 们 需要 使 用 NLP 流水 线 来 识别 句子 中 每 个 词 的 词性 。 


























11.4.1 词性 标注 


词性 (POS ) 标注 可 以 使 用 语言 模型 来 完成 ， 这 个 语言 模型 包含 词 及 其 所 有 可 能 词性 组 成 的 
字典 。 然 后 , 该 模型 可 以 使 用 已 经 正确 标注 好 词性 的 句子 进行 训练 ， 从 而 识别 由 该 字典 中 其 他 词 
组 成 的 新 句子 中 所 有 词 的 词性 。NLTK 和 spaCy 都 具备 词性 标注 功能 。 我 们 在 这 里 使 用 spaCy， 
因为 它 更 快 、 更 精确 。 具 体 做 法 参见 代码 清单 11-12。 
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代码 清单 11-12 ”使 用 spaCy 进行 词性 标注 


>>> import spacy 
>>> en model = spacy.load('en core web md') 
>>> sentence = ("In 1541 Desoto wrote in his Jjournal that the Pascagoula peop 
了 这 入 
"ranged as far north as the confluence of the Leaf and Chickasawhay r 
ivers dt 30.4 86895. 
>>> parsed sent = en model (sentence) spaCy 没有 识别 出 纬度 /经 度 对 
30.4) 





UD 





>>> parsed sent.ents 的 经 度 
(1541, Desoto, Pascagoula, Leaf, Chickasawhay, 


>>> " '.join(['{}_{}'.format (tok, tok.tag ) for tok in parsed sent]) 

'In IN 1541 CD Desoto NNP wrote VBD in IN his PRPS$ journal NN that_IN the DT 
Pascagoula NNP people NNS 

ranged VBD as_RB far RB north RB as_IN the DT confluence NN of IN the DT Lea 
f_NNP and CC Chickasawhay_NNP 

Trivers VBZ .at,IN S04 CD ; » S885 NEP ,2 导 

















spaCy 使 用 了 “OntoNotes 5” 
词性 标注 标签 体系 
因此 ， 要 构建 我 们 的 知识 图 谱 ， 我 们 需要 确定 哪些 对 象 (名 词 短语 ) 应 该 配对 。 我 们 想 把 日 期 
“1554 年 3 月 15 日 ”与 命名 实体 Desoto 配对 。 然 后 ,我们 可 以 解析 这 两 个 字符 串 ( 名 词 短语 ) 以 指 
向 我 们 知识 库 中 的 对 象 。 这 里 可 以 将 1554 年 3 月 15 日 转换 为 规范 化 表示 的 datetime .date 对 象 。 
spaCy 解析 的 句子 还 包含 能 套 字典 表示 的 依存 树 。 同 时 ，spPacy.qisplacy 可 以 生成 可 缩 
放 的 矢量 图 形 SVG 字符 串 (或 完整 的 HTML 页 面 )， 然 后 在 浏览 器 中 以 图 像 的 方式 查看 。 上 述 
可 视 化 方式 可 帮助 我 们 找到 通过 依存 树 创建 用 于 关系 提取 的 标签 模式 的 方法 。 具体 做 法 参见 代码 
清单 11-13。 








代码 清单 11-13 ”可 视 化 依存 树 


>>> from spacy.displacy import render 
>>> Sentence = "In 1541 Desoto wrote in his Jjournal about the Pascagoula." 
>>> parsed sent = en model (sentence) 
>>> with open('pascagoula.html', 'w') as f: 
f.write (render (docs=parsed sent, page=True, 
= options=dict (compact=True))) 


上 述 短 句 的 依存 树 表 明 ， 名 词 短 语 “the Pascagoula” 是 主语 “Desoto” 的 “met” 关 系 的 宾 
语 (如 图 11-2 所 示 )。 这 两 个 名 词 都 被 标注 为 专 有 名 词 。 


直接 宾语 
| 限定 词 修饰 





介词 修饰 





介词 宾语 | 名 词性 主语 
In 1541 Desoto met the Pascagoula. 
ADP NUM PROPN VERB DET PROPN 


11-2 ”Pascagoula 人 
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要 为 spacy.matcher .Matcher 创建 词性 和 词 属性 的 模式 ， 以 表格 形式 列 出 所 有 的 词 条 标 
签 会 很 有 帮助 。 代 码 清单 11-14 展示 了 一 些 辅 助 函数 ， 使 上 述 过 程 更 容易 。 





代码 清单 11-14 ”spaCy 标注 字符 串 的 辅助 函数 


>>> import pandas as pd 
>>> from collections import OrderedDict 
>>> def token dict (token): 
return OrderedDict (ORTH=token.orth , LEMMA=token.lemma , 
POS=token.pos , TAG=token.tag , DEP=token.dep ) 


>>> def doc dataframe (doc): 
return pd.DataFrame ( [token dict(tok) for tok in doc]) 


>>> doc dataframe (en model ("In 1541 Desoto met the Pascagoula.")) 


ORTH LEMMA POS TAG DEP 
0 Iri in ADP IN prep 
1 1541 1541 NUM CD pobj 
2 Desoto desoto PROPN NNP nsubj 
3 met meet VERB VBD ROOT 
4 the the DET DT det 
5 Pascagoula pascagoula PROPN NNP dobj 
6 PUNCT . punct 


从 上 例 中 ,我 们 可 以 看 到 POS 或 TAG 特征 值 组 成 的 序列 构成 了 一 个 正确 的 模式 。 如 果 我 们 
查找 人 与 组 织 之 间 的 “has-met” 关系 , 我 们 可 能 希望 引入 诸如 “PROPN met PROPN”“PROPN met 
the PROPN” “PROPN met with the PROPN” “PROPN often meets with PROPN” 等 模式 。 我 们 可 
以 单独 指定 每 个 模式 ,或 者 在 我 们 的 专 有 名 词 之 间 尝 试 使 用 “any word” 加 上 * 或 ?操作 符 的 模式 
来 捕获 它们 : 


'PROPN ANYWORD? met ANYWORD? ANYWORD? PROPN' 


spaCy 中 的 模式 比 上 述 伪 代码 更 强大 、 更 灵活 ， 因 此 我 们 必须 更 加 详细 地 阐述 我 们 想 要 匹配 
的 词 的 特征 。 在 spaCy 的 模式 规范 中 ， 我 们 使 用 字典 为 每 个 词 或 词 条 去 捕获 想 要 匹配 的 所 有 标签 ， 
如 代码 清单 11-15 所 示 。 





代码 清单 11-15 示例 spaCy 词性 标注 模式 


>>> pattern = [{'TAG': 'NNP', 'OP': '+'}, {'IS ALPHA': True, 'OP': xy 
{'LEMMA': 'meet'}, 
(VIS AEBHAS: TEUG "OB ss WH; A TAG "NNE® OB 让] 


然后 ， 我 们 可 以 从 解析 的 句子 中 提取 需要 的 带 标签 的 词 条 ， 如 代码 清单 11-16 所 示 。 





代码 清单 11-16 ”用 spaCy 创建 词性 标注 模式 匹配 器 


>>> from spacy.matcher import Matcher 
>>> doc = en model("In 1541 Desoto met the Pascagoula.") 
>>> matcher = Matcher (en model .vocab) 
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>>> matcher.add('met', None, pattern) 
>>> m = matcher (doc) 

>>> m 

[ (312280034159272152371; 2 6)] 


>>> doc[m[0] [1] :m[0] [2]] 
Desoto met the Pascagoula 


所 以 ,我 们 通过 上 述 模式 从 原始 句子 中 提取 了 一 个 匹配 项 ,但 是 对 于 维基 百科 中 类 似 句子 的 
效果 怎么 样 呢 ? 具体 做 法 参见 代码 清单 11-17。 





代码 清单 11-17 ”使 用 词性 标注 模式 匹配 器 





>>> doc = en model ("October 24: Lewis and Clark met their first Mandan Chief, 
Big White.™") 

>>> m = matcher (doc) [0] 

>>> m 

(12280034159272152371,; 3, 11) 


>>> doc[Im[1] :m[2]] 
Lewis and Clark met their first Mandan Chief 


>>> doc = en model("On 11 October 1986, Gorbachev and Reagan met at a house") 
>>> matcher (doc) 


[] 该 模式 与 选 自 维基 百科 的 句子 中 
的 任何 子 字符 串 都 不 匹配 


我 们 需要 再 添加 一 个 模式 ， 人 允许 动词 在 主语 和 宾语 名 词 之 后 出 现 ， 如 代码 清单 11-18 所 示 。 








代码 清单 11-18 ”组合 多 个 模式 得 到 更 鲁 棒 的 模式 匹配 器 





>>> doc = en model("On 11 October 1986，Gorbachev and Reagan met at a house") 
>>> pattern = [{'TAG': 'NNP', 'OP': '+'}, {'LEMMA': 'and'}, {'TAG': 'NNP', 'O 
Pp': 人 
{'IS ALPHA': True, 'OP': '*'}, {'LEMMA': 'meet'}] 


>>> matcher.add('met', None, pattern) A Eo g ew 
es 在 不 删除 前 一 个 模式 的 情况 下 添加 另 一 个 
模式 。 这 里 的 “met” 是 任意 命名 的 键 。 你 


> 


可 以 按照 你 的 喜好 命名 模式 





[(14332210279624491740, 5, 9)，, 
(14332210279624491740, 5, 11), 
(14332210279624491740,7, 11)， “+” 操 作 符 增 加 了 重大 的 可 选 匹配 的 数量 
(14332210279624491740, 5, 12)] 
>>> doc[m[-1] [1] :m[-1] [2]] 
3 的 匹配 是 4 最 后 一 个 
Gorbachev and Reagan met at a house 最 长 的 匹配 是 匹配 列表 中 的 最 后 一 





所 以 现在 我 们 得 到 了 实体 和 关系 。 我们 甚至 可 以 构建 一 个 对 中 间 动 词 (“met”) 的 限制 更 少 、 
对 两 侧 的 人 或 组 织 的 名 称 限制 更 严格 的 模式 。 这 样 做 可 能 帮助 我 们 识别 出 更 多 类 似 的 动词 , 这些 
动词 也 表示 一 个 人 或 组 织 和 另 一 个 人 或 组 织 相遇 , 例如 动词 “knows”, 甚至 包括 被 动 短语 , 如 “had 
a conversation” 或 “became acquainted with”。 然 后 我 们 可 以 基于 这 些 新 的 动词 给 两 侧 新 的 专 有 名 
词 添 加 关系 。 





异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 


11.4 ”提取 人 物 关系 ( 事物 关系 ) 313 























但 是 大 家 也 能 发 现 我 们 是 如 何 偏离 初始 关系 模式 的 原本 含义 的 。 这 称 为 语义 漂移 ( semantic 
drift )。 幸 运 的 是 ，spaCy 在 对 被 解析 文档 中 的 词 打 标签 时 ， 不 仅 包含 词性 和 依存 树 信息 ， 还 提供 
了 Word2vec 词 向 量 。 我 们 可 以 利用 该 向 量 来 避免 动词 和 任何 一 侧 的 专 有 和 名词 的 连接 关系 偏离 初 
始 模式 的 原本 含义 太 远 。” 











11.4.2 ”实体 名 称 标准 化 


实体 的 标准 化 表示 通常 是 一 个 字符 串 ， 即 使 对 于 日 期 之 类 的 数字 信息 也 是 如 此 。 日 期 的 标准 
化 ISO 格式 为 “1541-01-01”。 实 体 的 标准 化 表示 使 我 们 的 知识 库 能 够 将 图 谱 中 在 同一 天 世界 上 
发 生 的 所 有 不 同事 情 连 接 到 同一 节点 ( 实体 )。 

我 们 对 其 他 类 型 的 命名 实体 也 采用 标准 化 。 我 们 更 正 单词 的 拼写 ， 并 尝试 处 理 物体 、 动 物 、 
人 物 、 地 点 等 名 称 的 歧义 。 特 别 是 对 于 代词 或 依赖 上 下 文 的 其 他 “名 称 ”， 标 准 化 命名 实体 和 解 
决 层 义 问题 通常 也 被 称 为 共 指 消解 ( coreference resolution ) 或 指 代 消解 ( anaphora resolution )。 
这 与 我 们 在 第 2 章 中 讨论 的 词 形 归并 类 似 , 命名 实体 的 标准 化 确保 拼写 和 命名 变 体 不 会 产生 易 混 
淆 的 、 有 元 余 的 名 称 ， 从 而 污染 命名 实体 表 。 

例如 , “Desoto” 可 能 至 少 以 5 种 不 同 的 方式 在 特定 文档 中 出 现 : 

图 “de Soto ; 





















































国 “Hernando de Soto”; 

国 “Hernando de Soto ( 约 1496 / 1497-1542 )， 西 班 牙 征服 者 ”; 

国 https://.../.../Hernando de Soto (一 个 URI); 

图 著名 历史 人 物 数据 库 的 数字 ID。 

类 似 地 , 我 们 的 标准 化 算法 可 以 选择 上 述 任 何 一 种 形式 。 知 识 图 谱 应 以 相同 的 方式 对 每 种 实 
体 进行 标准 化 , 以 防止 同一 类 型 的 多 个 不 同 实体 使 用 了 相同 的 名 称 。 我 们 不 希望 多 个 人 的 名 字 都 
指向 同一 个 自然 人 。 更 重要 的 是 , 标准 化 应 该 一 以 贯 之 地 使 用 一 一 无 论 是 在 向 知识 库 写 人 新 的 事 
实 ， 还 是 在 读 取 或 者 查询 知识 库 时 都 应 如 此 。 

如 果 我 们 打算 在 填充 知识 库 之 后 更 改 标准 化 的 方法 ,那么 应 该 “迁移 ”或 更 新 知识 库 中 
已 有 实体 的 数据 ， 以 符合 新 的 标准 化 模式 。 用 于 存储 知识 图 谱 或 知识 库 的 无 模式 数据 库 ( 键 
值 存储 ), 也 会 受到 关系 数据 库 迁 移 的 影响 。 毕 竞 , 无 模式 数据 库 实 际 上 就 是 关系 数据 库 的 接 
口 封装 器 。 

实体 标准 化 之 后 ， 还 需要 “is-a” 关 系 将 它们 连接 到 实体 类 别 ， 这 些 实体 类 别 定 义 了 实体 的 
类 型 或 类 别 。 因 为 每 个 实体 可 以 具有 多 个 “is-a” 关 系 , 所 以 这 些 “is-a” 关 系 可 以 被 认为 是 标签 。 
类 似 于 人 名 或 者 词性 标签 ,如果 想 要 在 知识 库 中 使 用 日 期 和 其 他 离散 数字 对 象 , 也 需要 对 其 进行 
标准 化 。 

那么 实体 之 间 的 关系 呢 ? 这 些 关 系 也 需要 以 某 种 标准 化 的 方式 存储 吗 ? 



















































































J 这 是 一 个 热门 研究 课题 。 
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11.4.3 ”实体 关系 标准 化 和 提取 


现在 ,我们 需要 一 种 标准 化 实体 关系 的 方法 ， 从 而 确定 实体 之 间 的 关系 类 型 。 通 过 标准 化 ， 
我 们 可 以 找到 日 期 和 人 之 间 的 所 有 生日 关系 ,或 历史 事件 发 生 的 日 期 ,类似 于 “Hernando de Soto” 
和 “Pascagoula people” 相 遇 的 事件 。 我 们 需要 编写 算法 来 选择 上 述 关系 中 的 正确 标签 。 

此 外 ， 这 些 关系 可 以 采用 层次 化 的 命名 方式 ， 例 如 “发 生 于 /近似 地 ”和 “发 生 于 /精确 地 ”， 
从 而 让 我 们 采用 特定 的 关系 或 者 关系 类 别 。 我 们 还 可 以 使 用 一 个 数字 属性 来 标记 这 些 关系 的 “ 置 
信和 度 ”、 概 率 、 权 重 或 者 标准 化 频率 (类似 于 词 项 /单词 的 TF-IDF )。 每 次 当 我 们 从 新 文本 中 提取 
的 事实 证 实 了 知识 库 中 存在 的 事实 或 与 该 事实 矛盾 时 ， 我 们 都 可 以 调整 这 些 置信 度 的 值 。 

现在 ， 我 们 需要 一 种 方法 来 匹配 可 以 找到 这 些 关 系 的 模式 。 
































11.4.4 单词 模式 


单词 模式 就 像 正 则 表达 式 一 样 ， 但 它 用 于 单词 而 不 是 字符 。 我 们 使 用 单词 类 ， 而 不 使 用 字符 类 。 
例如 ， 我 们 不 是 通过 匹配 小 写字 符 ， 而 是 通过 单词 模式 判定 方法 来 匹配 所 有 的 单数 名 词 〈 词 性 标注 为 
“NN”) ”。 这 往往 通过 机 器 学 习 来 实现 。 一 些 种 子 句 利用 从 句子 中 提取 的 正确 关系 (事实 ) 来 进行 标 
注 ， 然 后 可 以 通过 词性 标注 模式 查找 类 似 的 句子 ， 即 使 句子 中 的 主语 词 和 宾语 词 甚至 关系 有 所 变化 。 

无 论 想 要 匹配 多 少 个 模式 ， 我 们 都 可 以 使 用 spaCy 包 以 两 种 不 同 的 方式 在 0(1) ( 常数 时 间 ) 
时 间 内 匹配 这 些 模 式 : 

田 用 于 任何 单词 /标签 序列 模式 的 PhraseMatcher ; 

四 用 于 词性 标签 序列 模式 的 Matcher 。 

为 了 确保 在 新 句子 中 找到 的 新 关系 真正 类 似 于 原始 的 种 子 ( 例子 ) 关系 ,我们 通常 需要 新 名 
子 中 的 主语 词 、 关 系 词 和 宾语 词 的 含义 与 种 子 句子 中 的 相似 。 实现 上 述 目 标的 最 好 方法 是 使 用 词 
义 的 向 量 表示 。 这 种 方法 管用 吗 ? 实际 上 , 第 4 章 中 讨论 的 词 向 量 , 是 实现 上 述 目标 的 最 广泛 使 
用 的 词义 表示 方法 之 一 。 词 向 量 有 助 于 尽 可 能 减少 语义 漂移 的 发 生 。 

使 用 单词 和 短语 的 语义 向 量 表示 使 自动 信息 提取 精确 到 能 够 自动 构建 大 型 知识 库 。 不 过 仍然 
需要 人 工 监督 和 管理 来 处 理 自然 语 言 文本 中 的 大 量 歧 义 。CMU 的 NELL 支持 用 户 基于 Twitter 
和 Web 应 用 程序 对 知识 库 的 更 改进 行 投票 。 



















































































11.4.5 “文本 分 割 
前 面 我 们 忽略 了 一 种 信息 提取 的 方式 , 而 该 方式 也 是 信息 提取 的 一 种 工具 。 我 们 在 本 章 中 处 























GD spaCy 使 用 “OntoNotes 5” 词 性 标签 。 

@) 详 见 标题 为 “Code Examples - spaCy Usage Documentation” 的 网 页 。 

@) 详 见 标题 为 “Matcher - spaCy API Documentation” 的 网 页 。 

由 详 见 标题 为 “NELL: The Computer that Learns - Carnegie Mellon University” 的 网 页 。 











HR 下 
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理 的 大 部 分 文档 都 是 只 包含 少量 事实 和 命名 实体 的 小 的 文档 块 。 但 在 实际 应 用 中 , 我 们 可 能 需要 
自己 创建 这 些 文档 块 。 

文档 “组 块 ”( chunking ) 有 助 于 创建 关于 文档 的 半 结 构 化 数据 ， 从 而 让 文档 在 信息 检索 场 
景 中 更 加 容易 搜索 、 过滤 和 排序 。 对 于 信息 提取 , 如 果 我 们 从 中 提取 关系 以 构建 知识 库 ( 如 NELL 
或 Freebase )， 则 需要 将 文档 拆 分 成 可 能 包含 一 到 两 个 事实 的 多 个 部 分 。 我 们 把 自然 语言 文本 划 
分 为 有 意义 的 各 部 分 的 过 程 , 称 为 文本 分 割 (segmentation )。 得 到 的 分 割 结果 可 以 是 短语 、 句 子 、 
引文 、 段 落 甚 至 是 长 文档 的 整个 章节 。 

对 于 大 多 数 信息 提取 问题 ,句子 是 最 常见 的 块 。 句子 之 间 通 常 使 用 一 些 符 号 (.、? 、! 或 换行 
符 ) 作为 标点 。 语 法 正确 的 英语 句子 必须 包含 一 个 主语 ( 名词 ) 和 一 个 动词 , 这 意味 着 它们 之 间 
通常 至 少 有 一 个 关系 或 事实 值得 提取 。 句子 的 意义 通常 是 自 包 含 的 , 不 会 过 多 依赖 前 面 的 文本 来 
传达 句子 的 大 部 分 信息 。 

幸运 的 是 , 包括 英语 在 内 的 大 多 数 语言 都 有 人 句子 的 概念 ， 即 一 个 单独 的 语句 ,包含 一 个 主语 
和 一 个 表达 了 某 些 内 容 的 动词 。 对 于 我 们 的 NLP 知识 提取 流水 线 ， 句子 正 是 我 们 所 需要 的 文本 
块 。 对 于 聊天 机 器 人 流水 线 ， 我 们 的 目标 是 将 文档 划分 成 句子 或 语句 。 

除了 便于 信息 提取 , 我 们 还 可 以 将 其 中 一 些 语句 和 句子 进行 标记 , 然后 作为 对 话 的 一 部 分 或 
者 对 话 中 的 适当 回复 。 通 过 断 句 ,我 们 可 以 在 较 长 的 文本 ( 如 书籍 ) 上 训练 聊天 机 器 人 。 相 比 于 
单纯 在 Twitter 流 或 IRC 聊天 记录 上 训练 ， 选 择 合适 的 书籍 可 以 使 我 们 的 聊天 机 器 人 具有 更 文艺 、 
智慧 的 风格 。 这 些 书 籍 使 我 们 的 聊天 机 器 人 可 以 使 用 范围 更 广 的 训练 文档 ,从 而 获得 关于 世界 的 
第 识 性 知识 。 

断 句 

断 名 (sentence segmentation ) 通常 是 信息 提取 流水 线 的 第 一 步 。 它 有 助 于 将 事实 彼此 隔离 ， 
以 便 我 们 可 以 在 “The Babel fish costs $42. 42 cents for the stamp.”( 宝贝 鱼 花 费 42 美元 ， 邮 票 花 
费 42 美 分 。) 这 个 字符 串 中 , 将 正确 的 价格 与 正确 的 事物 相关 联 。 上 述 字 符 串 是 表明 断 句 很 难 的 
一 个 很 好 的 例子 一 一 中 间 的 句点 可 以 被 解释 为 小 数 点 或 句号 结束 符 。 

我 们 从 文档 中 提取 的 最 简单 的 “信息 ”是 包含 逻辑 连贯 语句 的 词 序列 。 在 自然 语言 文档 中 ， 
重要 性 排 在 词 之 后 的 是 句子 。 句子 包含 了 关于 世界 的 逻辑 连贯 语句 。 这 些 语 句 包 含 我 们 要 从 文本 
中 提取 的 信息 。 句 子 描述 事实 的 时 候 ， 和 常常 描 述 事物 之 间 的 关系 以 及 世界 运行 的 原理 ， 因 此 我 们 
可 以 基于 句子 进行 知识 提取 。 句子 通常 用 来 解释 在 过 去 的 某 个 时 间 、 某 个 地 点 , 事情 是 怎么 发 生 
的 , 一般 会 怎么 发 展 , 或 者 将 来 会 怎么 发 展 。 因 此 ， 我们 还 应 该 能 够 用 句子 作为 指导 ,提取 有 关 
日 期 、 时 间 、 地 点 、 人 ， 甚 至 事件 或 任务 序列 的 事实 。 而 且 ， 最 重要 的 是 ， 所 有 自然 语言 都 有 名 
子 或 某 种 逻辑 连贯 的 文本 部 分 。 并 且 所 有 语言 都 有 一 个 广泛 认同 的 步骤 来 生成 它们 (一 套 语 法 规 
则 或 习惯 )。 

但 是 断 句 即 识别 句子 边界 ， 比 我 们 想象 的 要 复杂 一 些 。 例 如 , 在 英语 中 ,没有 哪个 标点 符号 
或 字符 序列 可 以 始终 标记 句子 的 结尾 。 
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11.4.6 ”为 什么 split(.!?) 函 数 不 管 用 


即使 是 人 也 可 能 无 法 在 下 面 的 每 对 引号 中 找 出 合适 的 句子 边界 。 对 这 些 疑难 例子 来 说 ,如 果 
在 每 对 引号 中 都 能 找 出 多 个 句子 ， 那 么 错误 率 会 达到 4/5: 





T live in the U.S. but I commute to work in Mexico on S.V Australis for a woman from St. 
Bernard St. on the Gulf of Mexico. 

J went to GT You? 

She yelled “lt's right here!” but | kept looking for a sentence boundary anyway. 

T stared dumbfounded on as things like “How did I get here?,” “Where am 1?,” “AmJ1 
alive? ” flittered across the screen. 


The author wrote “'I don' think it’s conscious.’ Turing said.” 


即使 是 人 也 可 能 难以 在 每 对 引号 中 找到 合适 的 句子 边界 。 更 多 断 句 的 “极端 例子 ”可 以 在 
nlpia.data 模块 中 找到 。 

技术 文档 特别 难以 断 句 ， 因 为 对 工程 师 、 科 学 家 和 数学 家 来 说 , 句号 和 感叹 号 除 可 以 用 来 表 
示 句 子 结 尾 之 外 ,还 会 被 用 来 表示 很 多 其 他 内 容 。 当 我 们 尝试 在 本 书 中 找 出 句子 边界 时 , 我们 也 
需要 手动 纠正 一 些 断 句 的 结果 。 

要 是 我 们 像 写 英文 电报 那样 ， 在 每 个 句子 的 结尾 加 上 “STOP” 或 唯一 的 标点 符号 就 好 了 。 因 
为 实际 做 不 到 这 样 , 所 以 我 们 需要 一 些 更 复杂 的 NLP 方法 , 而 不 仅仅 是 split (' .!1?')。 希望 大 
家 已 经 想到 了 解决 方法 。 如 果 有 的 话 ， 这 个 方法 可 能 基于 我 们 在 本 书 中 已 经 使 用 过 的 两 种 NLP 方 
法 之 一 : 

量 手动 编程 算法 ( 正则 表达 式 和 模式 匹配 ); 

图 统计 模型 ( 基于 数据 的 模型 或 机 吕 学 习 )。 

我 们 通过 断 句 问题 来 重新 审视 上 述 这 两 种 方法 , 向 大 家 展示 如 何 使 用 正则 表达 式 和 感知 机 来 
查找 句子 边界 。 并 且 我 们 将 使 用 本 书 的 文本 作为 训练 集 和 测试 集 来 展示 上 述 方法 遇 到 的 一 些 挑 
战 。 幸 运 的 是 ， 大 家 没有 在 句子 内 部 揪 入 任何 换行 符 来 手动 将 文本 处 理 成 报纸 的 列 式 布局 那样 。 
人 否则， 问题 将 更 加 困难 。 实 际 上 ， 本 书 的 大 部 分 源 文本 都 是 用 ASCIIdoc 格式 编写 的 ， 使 用 “ 老 
一 套 ” 的 句子 分 隔 符 〈 每 个 句子 结尾 后 有 两 个 空格 )， 或 者 每 个 句子 单独 写 一 行 。 这 样 我 们 就 可 
以 把 本 书 用 作 断 句 任 务 的 训练 集 和 测试 集 。 



















































































































































































11.4.7 ”使 用 正则 表达 式 进 行 断 名 


正则 表达 式 只 是 描述 “if... then” 规 则 树 〈 正 则 语法 规则 ) 的 简写 方法 ， 用 于 查找 字符 串 中 
的 字符 模式 。 正 如 我 们 在 第 1 章 和 第 2 章 中 提 到 的 ,正则 表达 式 ( 正则 语法 ) 是 指定 有 限 状 态 机 
规则 的 一 种 特别 简明 的 方法 。 我 们 的 正则 表达 式 或 有 限 状 态 机 只 有 一 个 目的 : 识别 句子 边界 。 
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如 果 大 家 在 网 上 搜索 断 句 工具 ”， 可 能 会 找到 各 种 用 于 捕获 最 常见 句子 边界 的 正则 表达 式 。 
以 下 是 其 中 的 一 些 ， 它们 通过 组 合 和 增强 给 大 家 提供 快速 、 通 用 的 断 句 表达 式 。 以 下 正则 表达 式 


适用 于 一 些 “正常 ”句子 : 





>>> re.split(r'[!.?]+[ $]', "Hello World.... Are you there?!?! I'm going 


to Mars!") 


['Hello World', 'Are you there', "I'm going to Mars!"] 





遗憾 的 是 ， 上 述 re.split 方法 消耗 了 句子 的 分 隅 符 ， 只 有 该 分 隔 符 是 文档 或 者 字符 串 的 
最 后 一 个 字符 时 才 会 被 保留 。 但 该 方法 确实 正确 地 忽略 了 双 层 仍 套 引号 中 句号 的 问题 : 


>>> re.split(r'[!.?] ', "The author wrote \"'I don't think it's conscious. 





TUrAnGg -Said. Nr) 





['The author wrote "\'I don\'t think it\'s conscious.\' Turing said."™'] 



































但 是 该 方法 也 忽略 了 引号 中 真实 句子 的 分 隔 符 。 这 可 能 是 好 事 也 是 坏事 ， 取 决 于 断 句 之 后 的 
言 息 提取 步 又 
>>> re.split(r'[!.?] ', "The author wrote \"'I don't think it's conscious. 


> Turing said.\" But I stopped reading.") 


['The author wrote "\'I don\'t think it\'s conscious.\' Turing said." But I 


stopped reading."™'] 








缩写 文本 怎么 样 ， 如 短 消 息 和 推 文 ”有 时 人 们 着 急 会 把 句子 写 到 一 起 ,句号 周围 没有 留 空 。 
以 下 正则 表达 式 只 能 处 理 在 任何 一 侧 都 有 字母 的 短 消息 中 的 句号 ， 并且 它 可 以 安全 地 跳 过 数值 : 


>>> re.split(r'(?<!I\d)\.|\.(?!1\d)', "I went to GT.You?") 


['I went to GT', 'You?'] 


即使 合并 上 面 两 个 正则 表达 式 ， 也 无 法 在 nlpia .data 的 疑难 测试 用 例 中 获得 较 好 的 效果 : 


>>> from nlpia.data.loaders import get data 


>>> regex = re.compilel(r'((?<!I\d)\.|\.(?1\d)) | ([!.?]+){[ $]+"') 


>>> examples = get datal('sentences-tm-town') 
>>> wrong = [] 


>>> for i, (challenge, text, sents) in enumerate (examples): 


if tuple(regex.split (text)) != tuple (sents): 
print('wrong {}: {}{}'.format (i, text[:50], '... 
50 else '')) 
wrong += [i] 


>>> len (wrong), len (examples) 
(6 二 元 .61:) 


if lenl(text) > 


大 家 必须 添加 更 多 “前 向 环视 ”和 “后 向 环视 ”来 提高 正则 表达 式 断 句 工 具 的 精确 性 。 更 好 
的 断 句 方 法 是 使 用 在 标记 好 的 句子 集合 上 训练 的 机 器 学 习 算法 (通常 是 单 层 神经 网 络 或 对 率 回 























归 )。 有 些 软 件 包 含 这 之 样 的 模型 ， 大 家 可 以 使 用 它 来 改进 你 的 断 句 工具 : 


国 DetectorMorse” 





Q@ 详 见 标题 为 “Python sentence segment at DuckDuckGo” 的 网 页 。 














@) 详 见 标题 为 “GitHub - cslu-nlp/DetectorMorse: Fasts upervised sentence boundary detection using the averaged 


perceptron” 的 网 页 。 
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spaCy 

SyntaxNet 

NLTK (Punkt) ©; 
Stanford CoreNLP  。 





别 与 问答 系统 ) 








对 于 大 多 数 关键 任务 的 应 用 程序 ， 我 们 使 用 spaCy 断 句 工具 (内置 于 解析 器 中 )。spaCy 依 





赖 少 ， 并 且 在 精确 率 和 速度 方面 与 其 他 工具 相当 。 如 果 大 家 想 使 用 目前 效果 最 好 的 纯 Python 实 





现 来 使 用 自己 的 训练 集 进 行 优 化 ,那么 Kyle Gorman 自 








145 现实 世界 的 信息 提取 


言 息 提取 和 问答 系统 可 用 于 : 





大 学 课程 的 助教 ; 
客户 服务 

技术 支持 

销售 


软件 文档 和 常见 问题 解答 
信息 提取 可 用 于 提取 : 

















数量 
地 址 
名 称 
久 人 名 
多 地 名 
4 应 用 
9 公司 
4 机 带 人 
关系 





“is-a”( 事 物 的 种 类 ) 











“has”( 事物 的 属性 ) 








nn 


i 于 
人 让 下 中 末 


己 己 己 








下 题 为 “models/syntax 





net-tutorial.md at master” 的 网 页 。 
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的 DetectorMorse 是 另 一 个 不 错 的 选择 。 


示 题 为 “Facts & Figures - spaCy Usage Documentation” 的 网 页 。 


示 题 为 “nltk.tokenize package 一 NLTK 3.3 documentation” 的 网 页 。 
示 题 为 “torotoki / corenlp-python 一 Bitbucket” 的 网 页 。 
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@ “related-to” 
无 论 是 从 大 型 语料库 还 是 实时 从 用 户 输入 中 解析 信息 , 能 够 提取 特定 细节 并 将 其 存储 起 来 供 
以 后 使 用 对 于 聊天 机 器 人 的 性 能 至 关 重 要 。 首 先 , 通过 识别 和 分 离 这 些 信息 ,然后 通过 标注 这 些 
言 息 之 间 的 关系 ,我们 学 会 了 以 编程 的 方式 “标准 化 ”信息 。 通 过 将 这 些 知 识 安全 存储 在 可 搜索 
的 结构 中 ， 我 们 的 聊天 机 器 人 将 具备 在 特定 领域 中 开展 对 话 的 能 
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可 以 构建 知识 图 谱 来 存储 实体 之 间 的 关系 。 

正则 表达 式 是 一 种 可 以 分 离 和 提取 信息 的 微型 编程 语言 。 
词性 标注 允许 提取 一 个 句子 中 实体 之 间 的 关系 。 

断 句 不 仅仅 是 分 开 句 号 和 感叹 号 。 
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本 章 主要 内 容 

国 了 解 聊 天 机 器 人 的 4 种 实现 方法 

图 学 握 人 工 智能 标记 语言 (AIML ) 

图 训 悉 聊天 机 器 人 流水 线 和 其 他 自然 语言 处 理 流 水 线 的 区 别 
国 了 解 一 种 将 最 佳 思路 合 为 一 体 的 聊天 机 器 人 混合 架构 

图 通过 机 器 学 习 使 聊天 机 器 人 变 得 越 来 越 聪明 

图 让 聊天 机 器 人 开口 一 一 让 它 自发 地 说 出 自己 的 想法 


本 书 一 开篇 就 介绍 了 对 话 引擎 或 者 聊天 机 器 人 自然 语言 处 理 流水 线 的 概念 ， 因 为 我 们 认为 这 
是 21 世纪 最 重要 的 自然 语言 处 理应 用 之 一 。 有 史 以 来 第 一 次 ， 我 们 可 以 用 我 们 自己 的 语言 和 机 器 
说 话 ， 而 且 有 的 时 候 我 们 分 辨 不 出 对 方 是 机 器 还 是 人 类 。 机 需 可 以 假装 成 人 类 ， 这 个 说 起 来 容易 ， 
做 起 来 却 很 难 。 如 果 大 家 认为 自己 的 聊天 机 器 人 有 这 个 能 力 ， 可 以 参加 目前 的 一 些 现金 奖励 比赛 ; 
国 The Alexa Prize ( $3.SM ); 
Loebner Prize ($7k ); 
The Winograd Schema Challenge ( $27k ) ,; 
The Marcus Test ; 
The Lovelace Test 。 
通过 对 本 章 知 识 的 学 习 , 大 家 能 收获 到 的 东西 包括 但 不 限于 : 通过 搭建 对 话机 器 得 到 的 纯 乐 
趣 和 魔力 , 通过 搭建 的 机 器 人 在 智商 测试 中 击败 人 类 后 获得 的 来 光 ,通过 措 建 机 器 人 使 世界 免 受 
恶意 黑客 僵尸 网 络 攻击 的 陶陶 然 的 感觉 , 通过 搭建 机 器 人 在 虚拟 助手 游戏 中 击败 谷歌 和 亚马逊 得 
到 的 奖金 。 
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GD David Bender 发 起 的 “Establishing a Human Baseline for the Winograd Schema Challenge”，Kurzweil 发 起 
的 “An alternative to the Turing test” 。 

@ 《纽约 客 》2014 年 1 月 发 表 的 “What Comes After the Turing Test”。 

(8) Reidl 发 起 的 “The Lovelace 2.0 Test of Artificial Creativity and Intelligence” 。 
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21 世纪 将 建立 在 用 于 辅助 人 类 的 AI( 人 工 智 能 ) 基础 之 上 。AI 最 自然 的 交互 方式 是 自然 语 
言 对 话 。 例如，Aira.io 的 聊天 机 器 人 Chloe 正在 帮助 视 障 群体 了 解 世界 。 其 他 公司 正在 构建 律师 
聊天 机 器 人 ,为 用 户 节 省 数 千 美 元 (或 英镑 ) 的 停车 罚单 和 上 庭 时 间 。 自 动 驾 驶 汽车 可 能 会 很 快 
拥有 类 似 于 谷歌 智能 助理 和 谷歌 地 图 那样 的 对 话 界面 ， 从 而 帮助 大 家 到 达 目 的 地 。 











12.1 语言 技能 


我 们 目前 拥有 了 组 装 聊天 机 器 人 (更 正式 的 说 法 是 ,一 个 对 话 系 统 或 对 话 引擎 ) 所 需 的 所 有 
组 件 。 我 们 也 将 构建 一 个 可 以 参与 自然 语言 对 话 的 NLP 流水线。 

我 们 即将 用 到 的 一 些 NLP 技能 包括 : 
分 词 、 词 干 还 原 和 词 形 归并 ; 
向 量 空间 语言 模型 ， 例 如 词 袋 向 量 或 主题 向 量 (语义 向 量 ); 
更 深层 次 的 语言 表示 ， 如 词 向 量 或 LSTM 思想 向 量 ; 
序列 到 序列 的 翻译 器 (来自 第 10 章 ); 
模式 匹配 (来 自 第 11 章 ) 

加 用 于 生成 自然 语言 文本 的 模板 。 

基于 上 述 工具 ,我们 可 以 构建 一 个 行为 有 趣 的 聊天 机 如 人 。 

首先 确保 我 们 对 聊天 机 器 人 的 认 知 是 一 致 的 。 在 某 些 社区 中 , “chatbot” 这 个 词 以 一 种 略 带 
贬义 的 方式 指 代 “ 预 设 回复 ”系统 。 这 些 聊 天 机 器 人 在 输入 文本 中 查找 模式 ， 然 后 基于 模式 对 
应 的 匹配 来 触发 固定 的 或 者 模板 化 的 回复 。 大 家 可 以 把 这 些 只 知道 基本 、 通 用 问题 答案 的 机 器 
人 当 作 FAQ 机 器 人 。 这 些 基本 的 对 话 系 统 主 要 用 于 自动 客户 服务 电话 网 系统 ， 在 这 些 聊天 机 器 
人 没有 匹配 上 预 设 回复 时 ， 可 以 将 对 话 交 给 人 来 继续 。 

但 这 并 不 意味 着 我 们 的 聊天 机 器 人 需要 如 此 受 限 。 如 果 大 家 对 于 这 些 模式 和 模板 非常 精通 ， 那 
么 聊天 机 器 人 可 以 成 为 邻 人 信服 的 心理 治疗 或 咨询 会 话 中 的 治疗 师 。 早 在 1964 年 ,Joseph Weizenbaum 
就 使 用 模式 和 模板 构建 了 第 一 个 流行 的 聊天 机 器 人 ELIZA。 此 外 ，Facebook Messenger 中 非常 有 
效 的 治疗 机 器 人 Woebot 就 在 很 大 程度 上 依赖 模式 匹配 和 模板 响应 方法 。 构 建 可 以 获 图 灵 奖 的 聊 
天 机 器 人 所 需 的 只 是 为 模式 匹配 系统 添加 一 些 状态 (上下文 ) 管理 。 

Steve Worswick 的 Mitsuku 聊天 机 器 人 在 2016 年 和 2017 年 使 用 模式 匹配 和 模板 方法 赢得 了 
勒 布 纳 人 工 智能 奖 ， 这 是 图 灵 测 试 的 一 种 方式 。 他 添加 了 上 下 文 或 状态 信息 ， 让 Mitsuku 更 有 深 
度 。 大 家 可 以 在 维基 百科 上 查阅 其 他 获奖 者 。 亚 马 逊 最 近 在 Alexa 中 添加 了 这 一 额外 的 对 话 深度 
( 上下文) 层 ， 并 将 其 称 为 “接力 模式 ”"。 我 们 在 本 章 中 将 学 习 如 何 为 自己 的 基于 模式 匹配 的 聊 
天 机 絮 人 添加 上 下 文 。 
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见 维基 百科 词 条 “Canned Response”。 
见 和 荷兰 开放 大 学 的 A.F. van Woudenberg 推出 的 “A Chatbot Dialogue Manager”。 
见 Verge 的 文章 “Amazon Follow-Up Mode”。 
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12.1.1 现代 方法 


自 ELIZA 出 现 以 来 ， 聊 天 机 器 人 已 经 经 过 了 漫长 的 发 展 。 几 十 年 来 ,模式 匹配 技术 得 到 了 
推广 和 完善 ,同时 也 出 现 了 全 新 的 方法 对 模式 匹配 技术 进行 补充 。 在 最 近 的 文献 中 ， 聊 天 机 器 人 
往往 被 称 为 对 话 系统 ,可 能 是 因为 聊天 机 器 人 的 复杂 性 。 利 用 文本 中 的 匹配 模式 并 使 用 这 些 模式 
提取 的 信息 填充 预先 设计 好 的 响应 模板 只 是 现代 构建 聊天 机 器 人 的 4 种 方法 之 一 : 

国 模式 匹配 方法 一 一 模式 匹配 和 响应 模板 预 设 响应 ); 

图 基础 方法 一 一 滁 辑 知 识 图 谱 和 基于 这 些 图 谱 的 推断 ; 

国 搜索 方法 一 一 文本 检索 ; 

图 生成 方法 一 一 统计 和 机 器 学 习 。 

上 面 大 致 按照 出 现 的 顺序 列 出 了 这 些 方法 。 我 们 后 续 也 将 按 这 个 顺序 介绍 它们 。 但 在 向 大 
家 介绍 如 何 使 用 每 种 方法 生成 回复 之 前 , 我 们 先 向 大 家 展示 在 现实 世界 中 聊天 机 器 人 是 如 何 使 
用 这 些 技术 的 。 

最 先进 的 聊天 机 器 人 混合 使 用 了 上 述 所 有 技术 。 这 种 混合 方法 能 够 使 聊天 机 器 人 完成 广泛 的 
任务 。 下 面 是 聊天 机 器 人 部 分 应 用 场景 的 列表 。 大 家 可 能 会 注意 到 ， 聊 天 机 器 人 越 先进 ,如 Siri、 
Alexa 和 Allo 等 ， 能 够 应 用 的 场景 或 者 处 理 的 问题 就 越 多 : 

图 问答 一 一 Google 搜索 、Alexa、Siri、Watson; 
























































图 虚拟 助手 一 一 Google Assistant、Alexa、Siri、MS paperclip; 
图 对 话 Google Assistant 、Google Smart Reply、 Mitsuki Bot; 
国营 销 一 一 Twitter 机 器 人 、 博 客机 器 人 、Facebook 机 器 人 、Google 搜索 、Google Assistant、 


Alexa、Allo ; 
社区 管理 Bonusly、 Slackbot; 
客服 一 一 店面 机 咒 人 ， 技 术 文 持 机 带 人 ; 
医疗 一 一 Woebot、Wysa、YourDOST、Siri、Allo。 
思考 一 下 ， 如 何 组 合 上 述 4 种 基本 的 对 话 引 苟 来 为 这 7 个 应 用 场景 创建 聊天 机 器 人 呢 ? 图 12-1 
展示 了 一 些 聊天 机 器 人 是 怎么 做 的 。 
我 们 简单 地 介绍 一 下 这 些 应 用 场景 ， 以 帮助 大 家 为 自己 的 应 用 场景 构建 一 个 聊天 机 器 人 。 


1， 问答 


问答 聊天 机 器 人 用 于 回答 关于 世界 的 事实 问题 ， 其 中 可 以 包括 关于 聊天 机 器 人 本 身 的 问题 。 
实际 上 , 许多 问答 系统 会 首先 搜索 知识 库 或 关系 数据 库 查 找 现实 世界 提供 的 基准 答案 。 如 果 找 不 
到 可 以 接受 的 答案 , 问答 系统 可 能 会 搜索 非 结 构 化 数据 语 料 ( 甚至 是 整个 Web ) 来 查找 问题 的 答 
案 。 这 基本 就 是 Google 搜索 的 做 法 。 解 析 请 求 、 识 别 需要 回答 的 问题 并 找 出 正确 答案 ， 需 要 一 
个 复杂 的 流水 线 ,， 该 流水 线 综合 了 前 面 章 节 中 介绍 的 大 部 分 技术 。 问 答 聊天 机 器 人 是 最 难 成 功 实 
现 的 ， 因 为 它们 需要 综合 许多 不 同 的 技术 要 素 。 
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We 问答 


1. 模式 匹配 方法 





虚拟 助手 
2. 基础 方法 对 话 
< 营销 
3. 搜索 方法 客服 
社区 管理 
4. 生成 方法 医疗 








图 12-1 用 于 一 些 示例 应 用 的 聊天 机 器 人 技术 


2. 虚拟 助手 


当 大 家 心里 有 明确 目标 时 ， 虚 拟 助 手 (如 Alexa 和 Google Assistant ) 会 很 有 帮助 。 这 里 的 目 
标 或 意图 通常 指 一 些 简单 的 事情 ,例如 启动 应 用 程序 、 设 置 提 醒 、 播 放 音 乐 或 打开 家 中 的 灯 。 出 
于 这 个 原因 , 虚拟 助手 通常 被 称 为 基于 目标 的 对 话 引 警 。 如 果 用 户 对 完成 指定 动作 或 检索 某 些 信 
息 感 到 满意 ， 与 此 类 聊天 机 器 人 的 对 话 往往 会 很 快 结 

大 家 可 能 熟悉 手机 或 智能 家 居 系 统 上 的 虚拟 助手 , 但 大 家 可 能 不 知道 虚拟 助手 也 可 以 帮助 我 
们 解决 法 律 纠 纷 和 税务 问题 。 虽然 Intuit 公司 的 TurboTax 向 导 不 是 很 健谈 , 但 它们 确实 实现 了 复 
杂 的 自动 话 务 台 。 大 家 不 是 通过 语音 或 对 话 ， 而 是 通过 在 表单 中 填写 结构 化 数据 与 它们 互动 。 所 
以 TurboTax 向 导 还 不 能 真正 称 为 聊天 机 器 人 ， 但 如 果 税 务 机 器 人 AskMyUncleSam 走红 的 话 ， 
TurboTax 向 导 一 定 会 很 快 被 封装 到 聊天 接口 中 。” 

律师 虚拟 助手 聊天 机 器 人 已 经 在 纽约 和 伦敦 成 功 申 诉 了 数 百 万 美元 的 停车 罚单 。 甚至 在 一 
家 英国 律师 事务 所 ， 大 家 与 律师 交流 的 唯一 方式 就 是 通过 聊天 机 器 人 。 律师 显然 是 基于 目标 的 虚 
拟 助 手 ， 他 们 能 做 的 不 仅仅 是 设 定 预 约 日 期 他们 还 会 预约 上 庭 日 期 也许 会 帮助 大 家 打 启 官司 。 

Aira.io 正在 开发 一 个 名 为 Chloe 的 虚拟 助手 。Chloe 为 视 障 人 士 提供 了 “ 视 障 人 士 可 视 化 解 
释 器 "。 使 用 期 间 ，Chloe 会 询问 客户 “你 是 视 障 人 士 吗 ? ”“ 你 有 导 盲 犬 吗 ? ”“ 你 有 任何 需要 我 
们 知道 的 食物 过 敏 或 饮食 偏好 吗 ? ”之 类 的 问题 。 如 果 大 家 的 应 用 程序 是 围绕 对 话 系统 设计 的 ， 
那么 这 种 设计 被 称 为 语音 优先 设计 。 将 来 ， 随 着 Chloe 学 会 通过 实时 视频 流 了 解 现实 世界 ， 她 所 
能 提供 的 帮助 会 大 大 扩展 。 全 世界 与 Chloe 交流 的 “探索 者 ”将 训练 她 了 解 人 类 在 现实 世界 中 的 



















































































@ 详 见 2017 年 1 月 AskMyUncleSam 在 VentureBeat 上 的 文章 。 
@) 详 见 2016 年 6 月 ， 英 国 卫 报 文章 “Chatbot Lawyer Overturns 160 000 Parking Tickets in London and New York”。 
@) 详 见 2017 年 11 月 Legal Futures 博客 文章 “Chatbot-based ‘firm without lawyers’ launched”。 
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日 常 活动 。Chloe 是 少数 几 个 完全 设计 用 来 辅助 而 不 是 影响 或 操纵 人 类 的 虚拟 助手 之 一 。” 

像 Sri、Google Assistant、Cortana 和 Aira 的 Chloe 这 样 的 虚拟 助手 每 天 都 在 变 得 更 聪明 。 虚 拟 
助手 从 与 人 类 以 及 其 连接 的 其 他 设备 的 交互 中 学 习 。 它 们 正在 开发 始终 通用 的 、 领 域 无 关 的 智能 。 
如 果 想 了 解 通用 人 工 智 能 (AGI )， 大 家 需要 将 试验 虚拟 助手 和 对 话 聊天 机 器 人 作为 研究 的 一 部 分 。 


3， 对 话 


对 话 聊天 机 器 人 ， 如 Worswick 的 Mitsuku 或 任何 一 款 Pandorabots ， 都 是 为 了 娱乐 而 设计 
的 。 只 要 拥有 大 量 数据 这些 机 器 人 通常 只 需 很 少 的 代码 就 可 以 实现 。 但 把 对 话 聊天 机 器 人 做 好 
则 是 一 个 不 断 演化 的 挑战 。 对 话 聊 天 机 絮 人 的 精确 性 或 性 能 通常 用 类 似 图 灵 测 试 的 方法 来 衡量 。 
在 典型 的 图 灵 测 试 中 ,人 类 通过 终端 与 男 一 个 聊天 参与 者 互动 , 并 试图 和 弄 清楚 它 是 机 器 人 还 是 人 
类 。 聊 天 机 器 人 越 难 与 人 类 区 分 开 来 ， 其 在 图 灵 测 试 指 标 上 的 性 能 就 越 好 。 

在 上 述 图 灵 测 试 中 ,聊天 机 器 人 预期 掌握 的 领域 知识 ( 知识 多 样 性 ) 和 模仿 人 类 行为 的 能 
每 年 都 在 增长 。 随 着 聊天 机 器 人 越 来 越 善 于 骗 过 我 们 ， 我 们 人 类 也 越 来 越 善于 发 现 其 中 的 端倪 。 
ELIZA 在 20 世纪 80 年 代 的 BBS 时 代 骗 过 了 我 们 中 的 许多 人 ， 让 我 们 误 以 为 “她 ”是 一 位 帮助 
我 们 面 对 日 常生 活 的 心理 治疗 师 。 在 能 够 再 次 在 图 灵 测 试 中 欺骗 我 们 之 前 , 聊天 机 器 人 已 经 又 经 
过 了 数 十 年 的 研究 和 开发 。 


骗 我 一 次 ， 是 机 器 人 的 耻 每 ; 骗 我 两 次 ， 是 人 类 的 耻 司 。 




























































































一 一 轶 名 
最 近 ,Mitsuku 赢得 了 Loebner 挑战 , 这 是 一 项 使 用 图 灵 测 试 对 聊天 机 器 人 进行 排名 的 比赛 。 
对 话 聊 天 机 器 人 目前 主要 用 于 学 术 研究 、 娱 乐 ( 视频 游戏 ) 和 广告 。 
4. 营销 
营销 聊天 机 器 人 用 于 给 用 户 推销 产品 ， 并 诱 使 用 户 购买 。 越 来 越 多 的 视频 游戏 、 电 影 和 电视 
节目 在 网 站 上 通过 聊天 机 器 人 进行 推广 : ” 
加 HBO 通过 “Aeden” 推 广 “ 西 部 世界 ”"，; 
加 索尼 用 “Red Queen” 推 广 “ 生 化 危机 ””; 





























Q 我 们 很 少 承认 虚拟 助手 和 搜索 引擎 影响 了 我 们 的 自由 意志 和 信仰 , 也 很 少 认识 到 它们 的 激励 措施 和 动机 
和 我 们 不 一 样 。 这 些 不 一 致 的 激励 措施 不 仅 存在 于 虚拟 助手 等 技术 中 ,还 存在 于 文化 本 身 。 如 果 你 有 兴 
趣 了 解 文化 和 技术 将 把 我 们 带 向 何方 ， 可 以 阅读 尤 瓦 尔 : 诺 亚 ， 赫 拉 利 的 《人 类 简 史 》 和 《未 来 简 史 六 























@) 详 见 标题 为 “Mitsuku Chatbot” 的 网 页 。 
@) 详 见 标题 为 “Pandorabots AIML Chatbot Directory” 的 网 页 。 
由 详 见 标题 为 “Loebner Prize” 的 维基 百科 词 条 。 








@) Justin Clegg 在 他 的 LinkedIn 帖子 中 列 出 了 更 多 的 例子 。 
@ 详 见 2016 年 9 月 娱乐 周刊 。 
@ 详 见 2017 年 1 月 IPG 媒体 实验 室 。 
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四 迪士尼 用 “Officer Judy Hopps” 推 广 “ 疯 狂 动物 城 ”“; 

加 环球 影 业 用 “Laura Barnes” 推 广 “ 解 除 好 友 ”; 

回 美国 动 视 用 “Lt. Reyes” 推 广 “ 使 命 召 唤 ”。 

一 些 虚 拟 助 手 也 在 扮演 营销 聊天 机 器 人 的 角色 ， 例 如 亚马逊 的 Alexa 和 谷歌 的 Google 
Assistant。 虽 然 它们 宣称 的 是 帮助 大 家 完成 添加 提醒 和 搜索 网 络 等 事情 ， 但 它们 总 是 优先 推送 产 
品 或 服务 ， 而 不 是 通用 或 免费 的 信息 。 这 些 公司 的 业务 是 售卖 东西 一 一 亚马逊 是 直接 售卖 ， 谷 歌 
是 间接 售卖 。 它 们 的 虚拟 助手 是 为 了 帮助 它们 的 母 公司 ( 亚马逊 和 谷歌 ) 赚钱 而 设计 的 。 当 然 ， 
它们 也 想 帮 助 用 户 完成 任务 , 所 以 我 们 还 会 继续 使 用 它们 。 但 是 这 些 营销 聊天 机 器 人 的 优化 目标 
是 引导 用 户 购买 ， 而 不 是 快乐 或 幸福 。 

大 多 数 营销 聊天 机 器 人 都 是 对 话 式 的 , 通过 为 用 户 带 来 娱乐 来 掩盖 它们 背后 的 动机 。 它 们 还 
可 以 运用 问答 技能 ， 以 销售 的 产品 知识 库 为 基础 。 为 了 模仿 电影 、 演 出 或 视频 游戏 中 的 角色 ， 聊 
天 机 器 人 会 使 用 文本 检索 技术 从 脚本 中 找 出 要 说 的 内 容 片段 。 有 时 甚至 生成 的 模型 会 直接 基于 脚 
本 集 进 行 训 练 。 因 此 ， 营 销 聊天 机 器 人 通常 会 使 用 大 家 在 本 章 中 所 学 的 所 有 4 种 技术 。 


5. 社区 管理 


社区 管理 是 聊天 机 器 人 特别 重要 的 应 用 ， 因 为 它 会 影响 社会 的 发 展 。 一 个 好 的 “牧羊 人 ”型 
聊天 机 器 人 可 以 引导 视频 游戏 社区 远离 混乱 ， 并 帮助 其 成 长 为 一 个 包容 的 、 合 作 的 世界 ,在 这 个 
世界 里 ， 每 个 人 都 能 享受 乐趣 ， 而 不 是 只 有 恶霸 和 巨 魔 。 一 个 糟糕 的 聊天 机 器 人 ， 如 Twitter 机 
器 人 Tay， 可 以 迅速 创造 一 种 充满 偏见 和 无 知 的 环境 。” 

当 聊天 机 器 人 “脱轨 ”时 ， 有 些 人 会 说 它们 只 是 社会 的 镜子 或 放大 镜 。 任 何 复杂 系统 与 现实 
世界 交互 时 常常 会 产生 意 想不到 的 后 果 。 但 是 ， 因 为 聊天 机 器 人 是 积极 的 参与 者 ， 由 像 你 我 这 样 
开发 者 推动 ， 所 以 大 家 不 应 该 把 它们 仅仅 视 为 “社会 的 镜子 "。 聊 天 机 器 人 能 做 的 似乎 不 仅仅 是 反 
映 和 放大 我 们 最 好 的 和 最 坏 的 部 分 。 它们 是 一 股 积极 的 力量 , 部 分 受到 它们 的 开发 者 和 训练 者 的 影 
响 ， 或 善 或 恶 。 因 为 监督 者 和 管理 者 无 法 百分之百 地 执行 任何 确保 聊天 机 器 人 “不 做 恶 ” 的 政策 ， 
所 以 努力 开发 善良 、 善 解 人 意 和 有 利于 社会 的 聊天 机 器 人 取决 于 开发 者 。 阿 西 黄 夫 的 “机 器 人 三 定 
律 ”是 不 够 的 。 只 有 开发 者 能 够 通过 智能 的 软件 和 巧妙 构建 的 数据 集 来 影响 机 器 人 的 进化 。 
亚利桑那 大 学 的 一 群 聪明 人 正在 考虑 使 用 他 们 的 聊天 机 器 人 构建 技能 来 使 人 类 免 遭 伤害 ， 伤 
害 不 是 来 自 邪 恶 的 超级 智能 AI， 而 是 人 类 自身 。 研 究 人 员 试 图 模仿 潜在 的 恐怖 分 子 新 兵 的 行为 来 
干扰 和 误导 恐怖 组 织 招募 人 员 。 这 可 能 意味 着 有 一 天 聊天 机 器 人 通过 和 那些 想 要 给 世界 带 来 伤害 的 
人 聊天 就 能 拯救 人 类 。 如 果 让 聊天 机 器 人 去 哄骗 恰当 的 人 或 组 织 ， 那 么 这 种 哄骗 就 是 一 件 好 事 。 




































































































































































































































































































































































Q@ 详 见 2016 年 6 月 科技 博客 Venture Beat。 

@) 维基 百科 上 一 篇 关于 微软 Tay 聊天 机 器 人 短暂 “一 生 ” 的 文章 。 

@@ 详 见 2014 年 3 月 George Dvorski 在 Gizmodo 科技 博客 网 站 上 发 表 的 文章 “Why Asimov's Three Laws of 
Robotics Can’t Protect Us”。 

由 详 见 2015 年 10 月 的 Slate 杂志 文章 。 
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6. 客服 


客服 聊天 机 右 人 通常 是 大 家 访问 在 线 商 店 时 唯一 在 线 的 “人 ”。IBM 的 Watson 、 亚 马 逊 的 
Lex 以 及 其 他 聊天 机 器 人 服务 通常 运行 在 后 台 ， 为 这 些 客户 助理 提供 支撑 。 它 们 通常 集成 了 问 
答 技能 ( 记得 Watson 的 Jeopardy 问答 练习 赛 吗 ? ) 和 虚拟 助手 技能 。 但 与 营销 聊天 机 器 人 不 
同 , 客服 聊天 机 器 人 的 回答 必须 有 理 有 据 。 知 识 库 作 为 线 上 回答 的 “依据 ?， 必 须 保 持 当前 状 
态 ， 使 客服 聊天 机 器 人 能 够 回答 有 关 订 单 或 产品 的 问题 ， 同 时 能 够 启动 诸如 下 订单 或 取消 订 
单 等 操作 。 

2016 年 ，Facebook Messenger 发 布 了 一 个 API， 供 企业 构建 客服 聊天 机 器 人 人。 谷歌 最 近 购 
买 了 APILai 来 构建 它们 的 Dialogflow ( 对 话 流 ) 框架 ， 该 框架 通常 用 于 构建 客服 聊天 机 器 人 。 
同样 ,亚马逊 的 Lex 通 常用 于 为 在 亚马逊 上 销售 产品 的 零售 商 和 批发 商 构建 客户 服务 对 话 引 擎 。 
聊天 机 器 人 正在 迅速 成 为 时 尚 业 (Botty Hilfiger )、 快 餐 业 (TacoBot ) 和 鲜花 业 等 行业 的 重要 
销售 渠道 。 


7. 医疗 


现代 医疗 聊天 机 器 人 ， 如 Wysa 和 YourDOST， 已 经 用 于 帮助 失业 的 科技 工人 适应 他 们 的 新 
生活 。 医疗 聊天 机 器 人 必须 像 对 话 聊天 机 器 人 一 样 有 趣 。 它 们 必须 像 问答 聊天 机 器 人 一 样 提 供 
言 息 。 它 们 必须 像 营销 聊天 机 器 人 一 样 具 有 说 服 力 。 如 果 它 们 受 利益 驱使 产生 利他 行为 , 那么 这 
些 聊 天 机 器 人 会 被 “目标 引导 ”， 利 用 它们 的 营销 和 感召 技能 让 大 家 重新 回来 参加 额外 的 课程 。 

大 家 可 能 不 会 将 Siri、Alexa 和 Allo 视 为 医疗 师 ， 但 它们 可 以 帮助 大 家 度 过 艰难 的 一 天 ， 
向 它们 询问 生命 的 意义 ， 大 家 一 定 会 得 到 一 个 哲学 或 幽默 的 回应 。 如 果 大 家 感到 诅 未， 请 让 
它们 给 你 讲 一 个 笑话 或 者 播放 一 些 积 极 欢快 的 音乐 。 它 们 具备 的 不 只 是 这 些小 技巧 ， 大 家 
不 用 怀疑 ， 这 些 复 杂 聊 天 机 需 人 的 开发 者 是 由 心理 学 家 指导 的 ， 旨 在 帮助 创造 一 种 增加 大 家 
快乐 和 幸福 感 的 体验 。 

正如 大 家 所 料 , 这 些 医疗 聊天 机 器 人 采用 混合 算法 ,该 算法 组 合 了 本 章 开 头 列 出 的 所 有 4 种 






















































































那么 所 谓 的 混合 方法 到 底 是 什么 样 的 呢 ? 

4 种 基本 的 聊天 机 器 人 方法 可 以 通过 多 种 方式 组 合 在 一 起 产生 有 用 的 聊天 机 器 人 。 多 种 不 同 
的 应 用 程序 都 使 用 了 所 有 4 种 基本 技术 。 混 合 型 聊天 机 器 人 之 间 的 主要 区 别 在 于 它们 如 何 组 合 这 4 
种 技术 ， 以 及 为 每 种 技术 设置 多 大 的 “权重 ”或 “分 量 ”。 

在 本 章 中 , 我 们 将 向 大 家 展示 如 何在 代码 中 显 式 地 协调 这 些 方法 ,从 而 帮助 大 家 构建 满足 需 




















QO@ 详 见 2017 年 12 月 彭 博 社 文章 。 
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求 的 聊天 机 器 人 。 我 们 在 这 里 使 用 的 混合 方法 将 允许 大 家 将 所 有 这 些 现实 世界 系统 的 特征 构建 到 
机 器 人 中 。 同 时 大 家 将 创建 一 个 “目标 函数 ”， 作 为 聊天 机 器 人 在 4 种 方法 之 间 进 行 选择 或 者 仅 
基于 某 种 方法 在 产生 的 所 有 可 能 回复 中 选择 的 目标 依据 。 

因此 , 我 们 接 下 来 逐个 深入 探讨 这 4 种 方法 。 对 于 每 一 种 方法 , 我 们 构建 一 个 仅 基于 我 们 所 
学 方法 的 聊天 机 器 人 。 而 在 本 章 最 后 我 们 将 向 大 家 展示 如 何 将 它们 混合 到 一 起 。 








12.2 模式 匹配 方法 


最 早 的 聊天 机 器 人 基于 模式 匹配 来 产生 回复 。 除了 检测 机 器 人 能 够 回复 的 语句 , 模式 还 可 以 
用 于 从 输入 文本 中 提取 信息 。 在 第 11 章 中 我 们 已 经 学 习 了 几 种 定义 信息 提取 模式 的 方法 。 

从 用 户 的 语句 中 提取 的 信息 可 以 用 于 填充 有 关 用 户 或 整个 世界 的 知识 库 。 这 些 信息 甚至 可 以 
直接 用 来 填充 对 某 些 语句 的 即时 回复 。 在 第 1 章 中 , 我 们 展示 了 一 个 简单 的 基于 模式 的 聊天 机 器 
人 , 它 使 用 正则 表达 式 来 检测 问候 语 。 大 家 还 可 以 使 用 正则 表达 式 来 提取 人 类 用 户 所 问候 的 人 员 
姓名 。 这 有 助 于 为 机 器 人 提供 对 话 的 “上 下 文 ”， 而 这 些 上 下 文 可 用 于 产生 回复 。 

20 世纪 70 年 代 后 期 开发 的 ELIZA 在 这 方面 效果 惊人 , 令 许多 用 户 相信 “她 ”能 够 帮助 他 们 
应 对 心理 上 的 挑战 。ELIZA 基于 一 组 有 限 的 词 集 在 用 户 语句 中 进行 查找 。 该 算法 会 对 它 找 到 的 所 
有 词 进行 排名 ， 以 便 找到 一 个 在 用 户 语句 中 看 起 来 最 重要 的 词 。 然后， 触发 选中 与 该 词 相关 联 
的 预 设 响应 模板 。 这 些 响应 模板 经 过 精心 设计 ， 使 用 反 身 心理 学 来 模仿 治疗 师 的 同 理 心 和 包容 
心 。 触 发 回复 的 关键 词 会 在 回复 中 经 常 重复 使 用 ,使 其 听 起 来 好 像 ELIZA 理解 了 用 户 正 在 谈 
论 的 内 容 。 通 过 使 用 用 户 自己 的 语言 进行 回复 ,机 器 人 帮助 建立 起 融洽 的 关系 并 使 用 户 相 信 它 
真 的 在 倾听 。 

ELIZA 教会 我 们 很 多 关于 如 何 使 用 自然 语言 与 人 类 交流 的 知识 。 也 许 最 重要 的 启示 是 ， 好 好 
倾听 ， 或 者 至 少 看 起 来 在 好 好 倾听 ， 这 是 聊天 机 器 人 成 功 的 关键 。 

1995 年 ，Richard Wallace 开始 构建 一 个 基于 模式 匹配 方法 的 通用 聊天 机 器 人 框架 。 在 1995 
年 至 2002 年 间 , 他 的 开发 者 社区 构建 了 人 工 智能 标记 语言 (AIML ) 来 定义 聊天 机 器 人 的 模式 和 
回复 。A.LIC.E. 正 是 利用 这 种 标记 语言 定义 自身 行为 的 聊天 机 器 人 的 开源 参考 实现 。 此 后 , AIML 
成 为 定义 聊天 机 器 人 和 虚拟 助手 配置 服务 ( 如 Pandorabots ) API 的 事实 上 的 开放 标准 。 微 软 公司 
的 Bot 框架 也 能 够 加 载 AIML 文件 来 定义 聊天 机 器 人 行为 。 但 是 ,其 他 一 些 框架 ( 如 谷歌 公司 的 
Dialog-Flow 和 亚马逊 的 Lex ) 并 不 支持 AIML 文件 的 导入 或 导出 。 

AIML 是 一 个 开放 标准 ， 意 味 着 有 对 应 的 说 明文 档 , 并 且 没 有 任何 局 限于 特定 公司 的 隐藏 专 
有 特性 。 开 源 Python 包 可 用 于 解析 和 执行 聊天 机 器 人 的 AIML。 但 AIML 限制 了 可 以 定义 的 模式 
类 型 和 逻辑 结构 。 由 于 它 是 XML 的 一 种 ， 这 意味 着 基于 Python 构建 的 聊天 机 器 人 框架 (如 Will 
和 ChatterBot ) 通常 更 适合 构建 我 们 的 聊天 机 器 人 。 






























































































































































人 Python 安装 : pip install aiml。 
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因为 我 们 已 经 有 很 多 基于 Python 包 的 NLP 工具 ， 只 需 直接 用 Python 和 正则 表达 式 或 glob 
模式 为 我 们 的 聊天 机 器 人 定义 处 理 逻辑 ,我们 就 可 以 构建 更 复杂 的 模式 匹配 聊天 机 器 人 。 在 
Aira, 我 们 开发 了 一 种 类 似 于 AIML 的 简单 glob 模式 语言 , 用 于 定义 我 们 的 模式 。 我 们 有 一 个 转 
换 程 序 ， 可 以 将 这 种 glob 模式 语言 转换 为 正则 表达 式 ， 从 而 在 任何 带 有 正则 表达 式 解 析 器 的 平 
台 上 运行 。 

Aira 在 aichat 这 个 聊天 机 器 人 框架 中 使 用 { {handlebars}} 作 为 我 们 的 模板 规范 。 
handlebars 模板 语言 支持 Java 和 Python 的 解释 器 ， 所 以 Aira 可 以 在 各 种 移动 和 服务 器 平台 上 使 
用 该 语言 。 并 且 handlebars 表达 式 能 够 包含 用 于 创建 聊天 机 器 人 复杂 行为 的 过 滤器 和 条 件 语句 。 
如 果 大 家 想 在 聊天 机 器 人 模板 中 提供 更 简单 和 Python 风格 的 东西 ， 那 么 可 以 使 用 Python 3.6 的 
f-strings 语法 。 如 果 大 家 还 没有 使 用 Python 3.6, 那么 可 以 使 用 str.format (template, ** 
locals () ) 来 泻 染 模板 ， 其 效果 和 fstrings 一 模 一 样 。 











12.2.1 基于 AIML 的 模式 匹配 聊天 机 器 人 
基于 AIML (v2.0 ), 定义 第 1 章 中 问候 聊天 机 器 人 的 模板 ， 如 代码 清单 12-1 所 示 。 





代码 清单 12-1 nlpia/book/examples/greeting.v2.aiml 


<?xml version="1.0" encoding="UTE-8"?><aiml version="2.0"> 
<category> 
<pattern>HI</pattern> 
<template>Hi!</template> 
</category> 
<category> 
<pattern>[HELLO HI YO YOH YO'] [ROSA ROSE CHATTY CHATBOT BOT CHATTERBOT]< 
/pattern> 
<template>Hi , How are you?</template> 
</category> 
<category> 
<pattern>[HELLO HI YO YOH YO' 'SUP SUP OK HEY] [HAL YOU U YALL Y'ALL YOUS 
YOUSE]</pattern> 
<template>Good one.</template> 
</category> 
</aiml> 


我 们 使 用 了 AIML 2.0 (由 Bot Libre 提供 ) 的 一 些 新 特性 ， 使 XML 更 加 紧凑 和 可 读 。 方 括 
号 允许 大 家 在 一 行 中 定义 同一 个 词 的 其 他 拼写 形式 。 

遗憾 的 是 ，AIML (PyAiml、aiml 和 aiml bot ) 的 Python 解释 器 不 支持 第 2 版 AIML 
规范 。 与 最 初 AIML 1.0 规范 兼容 的 Python 3 AIML 解释 器 是 aiml bot。 在 aiml bot 中 , 解 
析 器 能 入 在 Bot () 类 中 ， 该 类 被 设计 成 将 “大 脑 ” 常 驻 内 存 中 ， 以 帮助 聊天 机 器 人 快速 响应 。 




















Q@ glob 模式 和 globstar 模式 是 用 于 在 DOS、Bash 或 几乎 任何 其 他 shell 中 查找 文件 的 简化 正则 表达 式 。 在 
glob 模式 中 ， 星 号 (* ) 用 于 表示 任意 数量 的 任何 字符 。 所 以 * .txt 将 匹配 任何 末尾 有 “.txt” 的 文件 名 。 
@ 详 见 2015 年 8 月 NanoDano 的 文章 “AI Chat Bot in Python with AIML”。 





























异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 








12.2 ”模式 匹配 方法 329 


这 个 “大 脑 ”或 者 是 内 核 ， 把 所 有 AIML 模式 和 模板 都 保存 在 单个 数据 结构 中 ， 类 似 于 Python 
字典 ， 将 每 个 模式 映射 到 对 应 的 响应 模板 。 


1. AIML 1.0 


AIML 是 一 种 基于 XML 标准 的 声明 式 语 言 ， 它 规定 了 可 以 在 机 器 人 中 使 用 的 编程 构想 和 数 
据 结构 。 但 是 基于 AIML 的 聊天 机 器 人 还 不 是 一 个 完整 的 系统 。 我 们 还 需要 利用 前 面 学 到 的 所 有 
其 他 的 工具 来 扩充 AIML 聊天 机 器 人 。 

AIML 的 一 个 限制 是 我 们 可 以 用 来 匹配 和 响应 的 模式 种 类 。AIML 内 核 〈 模式 匹配 器 ) 仅 在 
输入 的 文本 与 开发 人 员 硬 编码 的 模式 匹配 时 才 响 应 。 好 消息 是 ，AIML 模式 可 以 包含 通配符 
一 种 匹配 任意 词 序列 的 符号 。 但 是 在 模式 中 确实 包含 的 词 必须 精确 匹配 。 模 糊 匹 配 、 表 情 符号 、 
内 部 标点 符号 、 录 入 错误 或 拼写 错误 等 不 会 自动 匹配 。 在 AIML 中 ， 必 须 使 用 </ srai> 标 签 手 
工 定义 同义词 ,一 次 一 个 。 回 想 一 下 在 第 2 章 中 以 编程 方式 完成 的 所 有 词 干 和 词 形 还 原 。 在 AIML 
中 实现 上 述 功能 将 是 一 件 非 常 烦琐 的 工作 。 虽然 我 们 在 这 里 展示 了 如 何在 AIML 中 实现 同义词 和 
录入 匹配 功能 , 但 在 本 章 结尾 构建 的 混合 型 聊天 机 器 人 将 通过 对 输入 到 聊天 机 器 人 的 所 有 文本 进 
行 处 理 来 避 开 上 述 问题 。 

大 家 需要 知道 的 AIML <pattern> 的 另 一 个 基本 限制 是 它 只 能 有 一 个 通配符 。 更 具 表 现 
力 的 模式 匹配 语言 ( 如 正则 表达 式 ) 可 以 提供 创建 有 趣 聊天 机 器 人 的 更 多 能 力 。 目前 ， 基 于 
AIML ,我 们 只 使 用 “HELLO ROSA *” 等 模式 来 匹配 输入 文本 ,例如 “Hello Rosa, you wonderful 
chatbot!” 























































































































注意 语言 的 可 读 性 对 于 开发 人 员 的 工作 效率 至 关 重 要 。 无 论 是 构建 聊天 机 器 人 还 是 Web 应 用 程 
序 ， 优秀 的 语言 都 可 以 带 来 巨大 的 差异 。 


我 们 不 会 花 太 多 时 间 来 帮助 大 家 理解 和 编写 AIML, 但 我 们 希望 大 家 能 够 导入 和 定制 一 些 可 
用 的 (和 免费 的 ) 开源 AIML 脚本 。 通过 少量 的 前 期 工作 ， 大 家 就 可 以 按照 AIML 脚本 为 聊天 
机 器 人 提供 一 些 基本 功能 。 

在 下 一 节 中 ， 我 们 将 展示 如 何在 聊天 机 器 人 中 创建 和 加 载 AIML 文件 并 使 用 它 生成 回复 。 


2. Python AIML 解释 器 

接 下 来 我 们 在 代码 清单 12-1 的 基础 上 一 步 一 步 构建 复杂 的 AIML 脚本 ， 并 展示 如 何在 
Python 程序 中 加 载 和 运行 它 。 代 码 清单 12-2 给 出 的 是 一 个 简单 的 AIML 文件 ， 它 可 以 识别 两 
个 词 序列 :“Hello Rosa” 和 “Hello Troll”， 聊 天 机 器 人 分 别 以 不 同 的 方式 回复 ， 就 像 前 面 章 节 
所 展示 的 一 样 。 





















































Q@ 在 表达 能 力 方 面 很 难 与 现代 编程 语言 (如 Python ) 竞争 。 
@) 用 Google 搜索 “AIML 1.0 files” 或 者 “AIML brain dumps”， 并 查看 诸如 Chatterbots 和 Pandorabots 之 类 
的 AIML 资源 。 
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代码 清单 12-2 nlpia/nlpia/data/greeting step1.aiml 


<?xml version="1.0" encodqing="UTE-8"?><aiml version="1.0.1"> 


<category> 
<pattern>HELLO ROSA </pattern> 
<template>Hi there!</template> 
</category> 
<category> 
<pattern>HELLO TROLL </pattern> 
<template>Good one, human.</template> 
</category> 


</aiml> 


注意 在 AIML 1.0 中 ， 所 有 模式 必须 全 大 写 。 


我 们 已 经 对 聊天 机 器 人 进行 了 设置 , 使 其 能 以 不 同 的 方式 回复 两 种 不 同 的 问候 : 礼 狐 的 方式 
和 不 礼貌 的 方式 。 现 在 我 们 使 用 Python 中 的 aiml_bot 包 来 处 理 AIML 1.0 文件 。 如 果 已 安装 
nlpia 包 ， 则 可 以 使 用 代码 清单 12-3 中 的 代码 加 载 这 些 示例 。 如 果 想 尝试 自己 编写 的 AIML 文 
件 ， 则 需要 调整 路 径 learn=path 来 指向 目标 文件 。 








代码 清单 12-3 nlpia/book/examples/ch12.py 


>>> import os 
>>> from nlpia.constants import DATA PATH 
>>> import aiml bot 


>>> bot = aiml bot.Bot( 

本 learn=os.path.join (DATA PATH， '‘'greeting stepl.aiml')) 
Loading /Users/hobs/src/nlpia/nlpia/data/greeting stepl.aiml... 
done (0.00 seconds) 

>>> bot.respond ("Hello Rosa,™") 

'Hi there!' 

>>> bot.respond("hello !!!troll!!!"™) 

'Good one, human.' 


程序 看 起 来 运行 状况 良好 。 在 进行 模式 匹配 时 , AIML 规范 巧妙 地 忽略 了 标点 符号 和 大 小 写 。 
但 是 AIML 1.0 规范 只 规范 化 模式 的 标点 符号 和 词 之 间 的 空白 符 ， 而 不 是 词 内 部 。 它 无 法 处 
理 同义词 、 拼 写 错误 、 带 连 字符 的 词 或 复合 词 ， 如 代码 清单 12-4 所 示 。 








代码 清单 12-4 nlpia/nlpia/book/examples/ch12.py 


>>> bot.respond ("Helo Rosa") 

WARNING: No match found for input: Helo Rosa 

1 1 

>>> bot.respond("Hello Ro-sa") 

WARNING: No match found for input: Hello Ro-sa 


可 以 使 用 模板 中 的 <srai> 标 签 和 星 号 (* )， 将 上 述 多 个 模式 链接 到 同一 个 响应 模板 ， 以 解 
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决 大 部 分 匹配 遗漏 的 问题 。 我 们 将 这 些 模式 视 为 “Hello” 的 同义词 ， 即 使 它们 可 能 是 拼写 错误 
或 完全 不 同 的 词 ， 如 代码 清单 12-5 所 示 。 





代码 清单 12-5 nlpia/data/greeting_step2.aiml 























<category><pattern>HELO * </pattern><template><srai>HELLO <star/> 
</srai></template></category> 
<category><pattern>HI * </pattern><template><srai>HELLO <star/> 
</srai></template></category> 
<category><pattern>HIYA * </pattern><template><srai>HELLO <star/> 
</srai></template></category> 
<category><pattern>HYA * </pattern><template><srai>HELLO <star/> 
</srai></template></category> 
<category><pattern>HY * </pattern><template><srai>HELLO <star/> 
</srai></template></category> 
<category><pattern>HEY * </pattern><template><srai>HELLO <star/> 
</srai></template></category> 
<category><pattern>WHATS UP * </pattern><template><srai>HELLO <star/> 
</srai></template></category> 
<category><pattern>WHAT IS UP * </pattern><template><srai>HELLO <star/> 
</srai></template></category> 











注意 如 果 大 家 正在 编写 自己 的 AIML 文件 , 不 要 忘记 在 开头 和 结尾 加 上 <aiml> 标 签 。 为 简洁 起 见 

我 们 在 上 述 示例 AIML 代码 中 省 略 了 该 标签 。 

一 旦 加 载 了 附加 的 AIML ， 机 器 人 就 可 以 识别 出 “Hello” 的 几 种 不 同 的 说 法 和 错误 拼写 形式 ， 
如 代码 清单 12-6 所 示 。 





代码 清单 12-6 nlpia/nlpia/book/examples/ch12.py 


>>> bot.learn(os.path.join(DATA_PATH， '‘'greeting step2.aiml')) 
>>> bot.respond ("Hey Rosa") 


'Hi there!' 

>>> bot.respond ("Hi Rosa") 
"Hi there!' 

>>> bot.respond ("Helo Rosa") 
'Hi there!' 


>>> bot.respond ("hello **troll** 1!1!1") 
'Good one, human.' 


在 AIML2.0 中 ,可 以 使 用 方 括号 列表 来 指定 选择 随机 响应 模板 。 而 在 AIML 1.0 中 , 使 用 <1i> 
标签 来 执行 此 操作 。<1i> 标 签 仅 在 <condition> 或 <random> 标 签 内 部 使 用 。 大 家 可 以 使 用 
<zandom> 标 签 来 帮助 机 器 人 在 回复 问候 时 显得 更 有 创意 一 点 儿 ， 人 参见 代码 清单 12-7。 











代码 清单 12-7 nlpia/nlpia/data/greeting_step3.aiml 


<category><pattern>HELLO ROSA </pattern><template> 
<random> 
<1Li>Hi Human!</1i> 
<li>Hello friend</1i> 
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<1i>Hi pal</1i> 
<1i>Hi!</1i> 
<1i>Hello!</1i> 
<1li>Hello to you too!</1i> 
<li>Greetings Earthling ;)</1i> 
<li>Hey you :)</1i> 
<li>Hey you!</1i> 
</random></template> 
</category> 
<category><pattern>HELLO TROLL </pattern><template> 
<random> 
<1i>Gooq one, Human.</1i> 
<1li>Good one.</1i> 
<1i>Nice one, Human.</1i> 
<1i>Nice one.</1i> 
<li>Clever.</1i> 
< > > 
</random></template> 
</category> 


现在 聊天 机 器 人 看 起 来 不 那么 机 械 ( 至 少 在 谈话 开始 的 时 候 ) 了 ， 如 代码 清单 12-8 所 示 。 





代码 清单 12-8 nlpia/nlpia/book/examples/ch12.py 





>>> bot.learn(os.path.join (DATA PATH, 'greeting step3.aiml')) 
>>> bot.respond ("Hey Rosa") 

'Hello friend' 
>> bot.respond ("Hey Rosa") 
Hey you :)'" 
>> bot.respond ("Hey Rosa") 
Hi Human!' 


注意 大 家 获得 的 回复 顺序 可 能 和 上 述 代码 运行 的 结果 并 不 一 致 。 这 就 是 <random> 标 签 的 意义 。 
每 次 匹配 模式 时 ， 它 都 会 从 列表 中 随机 选择 一 个 回复 。 无 法 在 aiml bot 中 设置 随机 种 子 , 但 这 有 
助 于 测试 (有 人 拉 取 请 求 吗 ? )。 








大 家 可 以 在 单独 的 <category> 标 签 中 为 “Hi” 和 “Rosa” 定 义 自 己 要 替换 的 拼写 ， 也 可 以 
为 模板 定义 不 同 的 同义词 组 , 并 根据 问候 类 型 区 分 回复 列表 。 例如 , 我 们 可 以 定义 问候 语 的 模式 ， 
例如 “SUP” 和 “WUSSUP BRO”, 然后 以 类 似 的 用 语 或 类 似 的 亲密 程度 和 非 正式 程度 进行 回复 。 

AIML 其 至 还 有 用 于 将 字符 串 捕 获 到 命名 变量 的 标签 ( 类 似 于 正则 表达 式 中 的 命名 组 )。 
AIML 中 的 状态 称 为 topic。AIML 定义 了 多 种 基于 大 家 在 AIML 文件 中 定义 的 任何 变量 来 定义 
条 件 语 名 的 方法 。 如 果 大 家 正在 使 用 AIML ,那么 可 以 尝试 一 人 下。 理解 语法 和 模式 匹配 聊天 机 器 
人 的 工作 原理 是 一 个 很 好 的 练习 。 但 我 们 将 继续 使 用 更 具 表 现 力 的 语言 , 如 正则 表达 式 和 Python 
来 构建 聊天 机 器 人 。 这 将 允许 大 家 使 用 更 多 在 前 面 章节 中 学 到 的 工具 ， 如 词 形 归 并 和 词 干 还 原 ， 
来 处 理 同义词 和 拼写 错误 ( 见 第 2 章 )。 如 果 在 聊天 机 器 人 中 使 用 AIML， 并 且 经 过 词 形 归并 和 
词 干 还 原 等 预 处 理 阶段 ， 那 么 可 能 需要 修改 AIML 模板 来 捕 提 这 些 词 干 和 词 形 。 

大 家 可 能 认为 AIML 看 起 来 有 点 儿 复 杂 , 其 实 好 多 人 都 这 么 认为 。 亚马逊 的 Lex 使 用 简化 版 
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的 AIML， 可 以 通过 JSON 文件 导出 导入 。 初 创 企 业 APLai 开发 了 一 种 非常 直观 的 对 话 规范 ， 谷 
歌 买 下 了 其 使 用 权 ， 将 其 集成 到 谷歌 云 服 务 中 ， 并 重新 命名 为 Dialogflow。Dialogflow 规范 也 可 
以 通过 JSON 文件 导出 导入 ， 但 这 些 文件 与 AIML 或 亚马逊 的 Lex 格式 并 不 兼容 。 

如 果 大 家 认为 所 有 这 些 不 兼容 的 API 应 该 整合 到 一 个 开放 规范 (如 AIML ) 中 , 那么 可 能 会 愿意 为 
aichat 项 目 和 AI 响应 规范 (AIResponse Specification，AIRS ) 语 言 的 开发 做 贡献 。Aira 和 Do More 
Foundation 正在 支持 AIRS, 以 便 我 们 的 用 户 更 容易 彼此 分 享 他 们 的 创作 (互动 小 说 、 鼓 励 、 培 训 课程 、 
虚拟 旅游 等 对 话 )。aichat 应 用 是 Python 版 AIRS 解释 器 的 参考 实现 ， 具 有 Web 用 户 体验 。 

下 面 是 典型 的 AIRS 的 样子 。 它 在 二 维 表格 的 一 行 中 ,定义 了 聊天 机 器 人 需要 对 用 户 指令 做 
出 响应 的 4 部 分 信息 。 此 表 可 以 通过 CSV、JSON 或 普通 Python 列表 导出 /导入 : 

>>> airas spec = [ 

["Hi {name}", "Hi {username} how are you?", "ROOT", "GREETING"], 
["What is your name?", 


"Hi {username} how are you?", "ROOT", "GREETING"], 
] 


AIRS 的 第 一 列 定义 了 需要 从 用 户 话语 或 文本 消息 中 提取 的 模式 和 任意 参数 。 第 二 列 定 义 
了 我 们 希望 聊天 机 融 人 说 出 (或 文本 显示 ) 的 回复 ， 通 常 以 一 种 可 以 使 用 聊天 机 需 人 的 数据 上 
下 文中 的 变量 填充 的 模板 形式 。 除 了 做 出 回复 ， 它 还 可 以 包含 特殊 的 关键 词 来 触发 聊天 机 需 人 
的 动作 。 

最 后 两 列 用 于 维护 聊天 机 器 人 的 状态 或 上 下 文 。 每 当 聊 天 机 器 人 被 模式 匹配 触发 时 ,如 果 它 
想 要 在 该 状态 下 产生 不 同 的 行为 ， 例 如 ， 跟 进 其 他 问题 或 信息 ， 它 可 以 转换 到 新 的 状态 。 因 此 ， 
行 尾 的 两 列 就 是 告诉 聊天 机 器 人 它 应 该 监听 的 这 些 模式 的 状态 , 以 及 它 应 该 在 完成 模板 中 指定 的 
响应 或 操作 后 转换 到 的 状态 。 这 些 源 状态 和 目标 状态 名 称 生成 了 一 张 图 ， 如 图 12-2 所 示 ， 它 控 
制 着 聊天 机 器 人 的 行为 。 


机 器 人 动作 “你 能 重复 一 次 吗 ?” 
用 户 动作 
状态 名 称 












































































“我 需要 Lyft 打 车 。” 








“{request lyft} 
你 的 Lyft 司 机 ， 
{lyft_name), 应 该 在 
{lyft_ eta} 
时 间 内 到 达 。” 





“你 叫 什么 名 字 ?” 








“{cancel_lyft} 好 的 ， 取消 你 的 Lyft 打 车 请 求 。” 





图 12-2 ”状态 ( 上 下 文 ) 管理 
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谷歌 的 Dialogflow 和 亚马逊 的 Lex 是 符合 aichat 模式 匹配 聊天 机 器 人 规范 实现 的 更 具 可 扩 
展 性 的 版 本 。 但 对 于 很 多 应 用 场景 ， 它 们 变 得 比 原先 更 加 复杂 。 开 源 项 目 aichat 试图 提供 一 种 更 直 
观 的 方式 来 设计 、 可 视 化 和 测试 聊天 机 器 人 。 如 果 想 了 解 有 关 聊 天 机 器 人 的 这 种 模式 匹配 方法 的 
更 多 信息 ， 请 查看 nlpia 中 的 aichat 或 混合 型 聊天 机 器 人 。 如 果 想 使 用 这 种 方法 在 生产 系统 上 实 
现 大 型 聊天 机 器 人 ， 和 谷歌 的 Dialogflow (之 前 称 为 app.ai ) 和 亚马逊 的 Lex 框架 都 有 带 大 量 文档 
的 示例 程序 供 大 家 在 上 面 继续 开发 。 虽 然 基 于 这 两 个 系统 都 可 以 部 署 免费 的 聊天 机 器 人 , 但 大 家 
很 快 就 会 受 限 于 它们 这 种 开发 方式 ， 所 以 大 家 可 能 最 好 帮助 我 们 开发 aichat。 
































12.2.2 ”模式 匹配 的 网 络 视图 


在 Aira 开发 聊天 机 器 人 来 帮助 视 障 人 士 的 同时 ， 我 们 也 开发 了 一 些 可 视 化 工具 来 分 析 和 设 
计 其 用 户 体验 。 状态 之 间 的 连接 以 及 产生 这 些 连 接 的 模式 构成 的 网 络 视图 为 新 模式 和 新 状态 的 发 
现 带 来 了 机 会 。 网 络 视图 允许 我 们 在 大 脑 中 “运行 ”对 话 过 程 ， 就 像 在 大 脑 中 运行 若干 行 Python 
代码 一 样 。 网 络 视图 帮助 我 们 通过 乌 梧 视图 在 对 话 树 (实际 上 是 网 络 或 图 ) 的 迷宫 中 导航 ， 避 免 
对 话 陷入 死胡同 和 死 循 环 。 

不 妨 想 一 想 ， 模 式 匹配 聊天 机 器 人 的 模式 和 回复 定义 了 一 个 网 络 (图 )。 该 网 络 中 的 节点 表 
示 状 态 。 网 络 中 的 边 表示 模式 匹配 触发 吉 ， 这 些 触发 吉 使 聊天 机 器 人 在 转换 到 下 一 个 状态 〈 节 点 ) 
之 前 输出 某 些 内 容 。 如 果 绘 制 一 些 AIRS 模式 和 回复 的 状态 转换 图 ， 可 能 会 得 到 类 似 于 如 图 12-2 
所 示 的 内 容 。 

这 可 以 帮助 大 家 通过 在 对 话 规范 中 完善 或 添加 模式 来 发 现 对 话 中 可 能 要 处 理 的 死胡同 或 死 
循环 。Aira 正在 开发 可 视 化 工具 ， 通 过 aichat 项 目 将 AIRS 转换 为 这 些 图 表 ( 如 图 12-2 所 示 )。 
如 果 大 家 了 解 Javascript 和 D3 ， 那 么 它们 可 能 需要 你 们 的 帮助 。 

现在 是 时 候 了 解 另 一 种 建立 聊天 机 器 人 的 基础 方法 了 。 


12.3 ”知识 方法 


AL.IC.E. 和 其 他 AIML 聊天 机 器 人 完全 依赖 模式 匹配 。 在 构想 AIML 之 前 ， 第 一 个 流行 的 
聊天 机 器 人 ELIZA 也 使 用 了 模式 匹配 和 模板 。 但 是 这 些 聊天 机 器 人 的 开发 人 员 在 模式 和 模板 中 
硬 编码 了 回复 的 逻辑 。 硬 编码 不 能 很 好 地 “扩展 ”， 这 种 扩展 不 是 从 处 理性 能 而 是 从 人 力 的 角度 
来 说 的 。 以 这 种 方式 构建 的 聊天 机 器 人 的 复杂 性 随 着 投入 人 力 的 增加 呈 线 性 增长 。 事实 上 ， 随 着 
这 个 聊天 机 器 人 的 复杂 性 不 断 增长 , 我们 开始 看 到 自己 努力 的 回报 却 在 递减 ,这 是 因为 随 着 “ 活 
动 组 件 ” 之 间 交 互 的 增加 ， 聊 天 机 器 人 的 行为 变 得 越 来 越 难以 预测 和 调试 。 

如 今 , 数据 驱动 编程 是 应 对 大 多 数 复杂 编程 挑战 的 现代 方法 。 如 何 使 用 数据 对 聊天 机 器 人 进 
行 编程 ? 在 上 一 章 中 , 我 们 学 习 了 如 何 使 用 信息 提取 从 自然 语言 文本 ( 非 结 构 化 数据 ) 中 创建 结 
构 化 知识 。 仅 仅 基 于 读 和 文本， 就 可 以 构建 关系 或 事实 组 成 的 网 络 ， 这 些 文本 可 以 是 维基 百科 文 
章 ， 甚 至 是 大 家 自己 的 个 人 日 志 。 在 本 节 中 ,我们 将 学 习 如 何 将 有 关 世 界 (或 我 们 的 生活 ) 的 知 
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识 融 人 聊天 机 器 人 的 技能 包 中 。 基 于 事物 之 间 的 这 种 逻辑 关系 网 络 产生 的 知识 图 谱 或 知识 库 , 可 
以 驱动 聊天 机 器 人 进行 回复 。 

通过 逻辑 推理 来 处 理 知识 图 谱 , 可 以 回答 包含 在 知识 库 中 的 世界 相关 的 问题 。 然 后 可 以 使 用 
推理 答案 填写 模板 化 回复 中 的 变量 ， 从 而 创建 自然 语言 答案 。 问 答 系 统 ， 例 如 IBM 在 Jeopardy 
获胜 的 “ 沃 森 ”( Watson )， 最 初 也 是 以 这 种 方式 构建 的 ， 尽 管 最 近 的 版 本 几乎 必然 也 采用 了 搜索 
或 信息 检索 技术 。 知 识 图谱 可 以 说 是 将 聊天 机 器 人 带 到 现实 世界 的 “根本 ”。 

基于 知识 库 的 方法 不 仅 限于 回答 关于 世界 的 问题 。 知 识 库 也 可 以 使 用 正在 进行 的 与 对 话 相关 
事实 进行 实时 填充 。 这 可 以 让 聊天 机 器 人 快速 了 解 对 话 目标 以 及 他 们 的 喜好 。 

如 果 在 知识 建 模 上 更 深 一 步 ， 可 以 构建 聊天 机 器 人 的 对 话 目标 关于 对 世界 看 法 的 知识 子 图 。 
如 果 大 家 熟悉 数据 库 设计 , 则 可 以 将 该 子 图 视 为 外 部 数据 库 一 一 这 里 指 知识 库 的 部 分 镜像 。 这 可 
以 是 仅 包 含 最 新 知识 的 临时 “缓存 ”， 也 可 以 是 聊天 机 器 人 学 习 到 的 〈 和 未 学 习 到 的 ) 有 关 其 他 
对 话 参与 者 的 所 有 知识 的 持久 滚动 日 志 。 对 话 参与 者 的 每 条 语句 都 可 以 用 来 填充 “心智 理论 ”， 
这 是 一 个 关于 每 个 发 言 者 对 世界 的 看 法 的 知识 库 。 这 和 构建 用 于 提取 对 话 参与 者 称呼 彼此 或 聊天 
机 器 人 时 所 用 昵称 的 模式 一 样 简单 ， 就 像 我 们 在 第 1 章 中 所 做 的 那样 。 

如 果 大 家 仔细 想 想 ， 人 类 似乎 会 以 更 复杂 的 方式 参与 对 话 ， 而 不 仅仅 是 像 刚 创建 的 AIML 聊 
天 机 器 人 一 样 只 是 重复 预 设 的 回复 。 人 类 的 大 脑 使 我 们 可 以 思考 对 话 目标 说 话 的 逻辑 , 并 尝试 从 
自己 对 现实 世界 的 逻辑 和 彼此 的 记忆 中 推断 出 某 些 东西 ,我 们 可 能 需要 做 出 一 系列 推理 和 假设 来 
理解 和 回复 一 条 语句 。 因 此 ， 为 聊天 机 器 人 添加 逻辑 和 基础 知识 可 能 会 使 其 更 像 人 ,或 者 至 少 更 
有 逻辑 性 。 

如 果 回 答 问 题 所 需 的 知识 属于 可 以 从 开源 数据 库 获 得 的 一 些 通用 的 知识 库 , 那么 这 种 聊天 机 
器 人 的 知识 方法 适用 于 问答 聊天 机 器 人 。 可 以 在 聊天 机 器 人 中 使 用 的 一 些 开放 知识 库 包 括 : 

国 Wikidata ( 包括 Freebase ) "; 

加 “Open Mind Common Sense (ConceptNet ) 可 

oe 

四 YAGO ; 

国 DBpedia 。 

所 以 , 大 家 要 做 的 就 是 查询 知识 库 ， 提 取 需 要 在 对 用 户 语 句 的 回复 中 填充 的 事实 。 如 果 用 户 
提出 知识 库 可 能 包含 的 事实 问题 ,那么 可 以 将 他 们 的 自然 语言 问题 (例如 “你 是 谁 ? ”或 “美国 
第 50 个 州 是 什么 ? ”) 转化 成 知识 库 查 询 ， 直接 在 知识 库 中 检索 他 们 寻找 的 答案 。 这 就 是 Google 
搜索 使 用 Freebase 和 其 他 知识 库 组 合 在 一 起 创建 知识 图 谱 时 所 做 的 事情 。 
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详 见 维基 百科 上 标题 为 “Welcome to Wikidata” 的 网 页 。 

详 见 维基 百科 上 标题 为 “API : commonsense/conceptnet5 Wiki : GitHub” 的 网 页 。 
详 见 维基 百科 上 标题 为 “Cyc” 的 网 页 。 

详 见 维基 百科 上 标题 为 “YAGO ( database )” 的 网 页 。 

详 

















见 维基 百科 上 标题 为 “DBpedia” 的 网 页 。 
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我 们 可 以 使 用 第 11 章 中 的 词 模式 匹配 技能 从 用 户 语句 中 提取 问题 的 关键 部 分 ， 例 如 命名 实 
体 或 用 户 对 话 要 查找 的 关系 信息 。 在 一 个 句子 的 开头 查找 关键 问题 词 , 例如 “who”“what”“when” 
“where"“why” 和 “is"， 以 便 对 问题 类 型 进行 分 类 。 这 将 有 助 于 聊天 机 器 人 确定 从 知识 图 谱 要 
检索 的 知识 类 型 ( 节点 或 命名 实体 类 型 )。 

Quepy 是 一 种 自然 语言 查询 编译 器 ,可 以 使 用 这 些 技术 生成 知识 库 和 数据 库 查 询 。 针 对 RDF 
三 元 组 知识 图 谱 的 等 价 SQL 称 为 SPARQL。” 









































12.4 检索 ( 搜索 ) 方法 


男 一 种 “倾听 ”用 户 的 数据 驱动 方法 是 在 历史 对 话 日 志 中 搜索 之 前 的 语句 。 这 类 似 于 人 类 倾 
听 者 尝试 回想 之 前 他 们 在 哪里 听 到 过 该 问题 、 句 子 或 词 。 机 融 人 不 仅 可 以 搜索 自己 的 对 话 日 志 ， 
还 可 以 搜索 任何 人 与 人 之 间 的 对 话 记录 、 机 器 人 和 人 之 间 的 对 话 记录 , 甚至 是 机 器 人 和 机 器 人 之 
间 的 对 话 记 录 。 但 和 以 往 一 样 ， 脏 数据 进 脏 数据 出 。 因 此 ,我 们 应 该 清理 并 整合 历史 对 话 的 数据 
库 ， 以 确保 机 器 人 搜索 ( 并 模仿 ) 高 质量 的 对 话 。 我 们 希望 人 类 享受 与 机 器 人 之 间 的 对 话 。 

基于 搜索 的 聊天 机 器 人 应 确保 其 对 话 数 据 库 包含 令 人 愉快 或 有 用 的 对 话 , 并 且 它 们 应 该 是 设 
定 个 性 的 机 器 人 预期 交流 的 一 些 主题 。 对 于 基于 搜索 的 机 器 人 , 一 些 好 的 对 话 资源 例子 包括 电影 
对 话 脚本 、IRC 频道 上 的 客户 服务 日 志 (用户 满意 的 部 分 ) 和 人 类 之 间 的 直接 消息 互动 ( 如 果 那 
些 人 愿意 与 我 们 分 享 的 话 ) 如 果 没 有 获得 想 要 使 用 的 对 话 中 涉及 的 所 有 人 的 书面 同意 ， 请 不 要 
使 用 大 家 自己 的 电子 邮件 或 短 消 息 日 志 。 

如 果 决 定 将 机 器 人 之 间 的 对 话 合并 到 语料库 中 , 那么 请 千 万 小 心 。 我 们 的 数据 库 中 只 需要 那 
些 至 少 有 一 个 人 看 起 来 对 交互 感到 满意 的 语句 , 哪怕 只 是 继续 对 话 。 除 非 是 真正 非常 智能 的 聊天 
机 右 人 ， 否 则 很 少 采 用 机 器 人 之 间 的 对 话 。 

基于 搜索 的 聊天 机 器 人 可 以 使 用 历史 对 话 日 志 来 查找 和 机 器 人 的 交谈 对 象 刚刚 说 的 话 类 似 
的 语句 示例 。 为 了 便于 搜索 ， 应 该 把 对 话语 料 库 组 织 成 语句 -回复 对 。 如 果 回 复 作为 被 回复 的 语 
句 , 那么 该 回复 应 该 在 数据 库 中 出 现 两 次 , 一 次 作为 回复 , 然后 再 作为 促使 回复 的 语句 。 数 据 库 
表 中 的 回复 列 随后 可 作为 “语句 ”( 或 促使 ) 列 的 语句 的 回复 依据 。 






















































































12.4.1 上 下 文 挑战 


最 简单 的 方法 是 一 字 不 差 地 重复 使 用 回复 ,不 做 任何 调整 。 如 果 对 于 被 回复 的 语句 ， 机 器 人 
的 回复 能 够 较 好 地 在 语义 (意思 ) 层面 匹配 , 那么 这 是 一 个 不 错 的 方法 。 但 即使 用 户 说 过 的 所 有 
话 都 可 以 在 数据 库 中 找到 , 机 器 人 也 还 是 会 呈现 出 对 话 数据 库 中 产生 回复 的 所 有 用 户 的 风格 。 如 
果 各 种 用 户 的 回复 风格 一 致 , 那么 这 是 一 件 好 事 。 但 是 ,如 果 想 要 回复 的 语句 取决 于 对 话 中 较 长 









































Q@ 详 见 标题 为 “Welcome to Quepy's documentation! 一 Quepy 0.1 documentation” 的 网 页 。 
@) 详 见 标题 为 “SPARQL Query Language for RDF” 的 网 页 。 
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的 上 下 文 ， 或 者 从 对 话语 料 库 创 建 以 来 已 发 生变 化 的 某 些 现实 世界 的 情况 ， 则 可 能 会 出 现 问题 。 

例如 ， 如 果 有 人 问 聊天 机 器 人 “现在 几 点 ? “， 那 么 聊天 机 器 人 不 应 该 重复 使 用 数据 库 中 用 
于 回答 最 匹配 语句 的 人 的 回复 。 只 有 当 提问 的 时 间 和 记录 的 匹配 对 话语 名 时 间 一 致 时 , 才 会 有 用 。 
该 时 间 信 息 称 为 上 下 文 或 状态 , 应 与 语句 的 自然 语言 文本 一 起 记录 和 匹配 。 当 语句 的 语义 指向 上 
下 文 或 机 器 人 知识 库 中 记录 的 某 些 变化 的 状态 时 ， 这 一 点 尤为 重要 。 

现实 世界 的 知识 或 上 下 文 如 何 影响 聊天 机 器 人 的 回复 的 其 他 一 些 例子 有 “你 是 谁 ? ”或 “你 
来 自 哪 里 ? ”这 里 的 上 下 文 是 提问 涉及 的 人 的 身份 和 背景 。 幸 运 的 是 , 该 上 下 文 可 以 比较 容易 
在 知识 库 或 数据 库 中 生成 和 存储 ， 知 识 库 中 包含 关于 机 器 人 的 配置 文件 或 背景 故事 的 事实 。 我 
们 需要 撰写 聊天 机 器 人 的 配置 文件 ,包含 如 个 性 档案 等 信息 ， 这 些 信息 大 致 反映 了 在 数据 库 中 
贡献 对 话 的 人 的 档案 的 平均 数 或 中 位 数 。 要 计算 此 值 , 我 们 可 以 使 用 在 对 话 数据 库 中 贡献 对 话 
的 用 户 的 档案 。 

聊天 机 器 人 个 性 档案 信息 可 用 于 解决 搜索 数据 库 时 出 现 匹配 语句 的 “平局 ”问题 。 如 果 想 变 
得 特别 久 经 世故 ,那么 可 以 提高 搜索 结果 中 那些 和 机 器 人 个 性 类 似 的 人 的 回复 评分 。 例 如, 假设 
知道 在 对 话 数 据 库 中 记录 的 语句 和 回复 的 人 的 性 别 , 那么 可 以 将 聊天 机 器 人 名 义 上 的 性 别 作为 在 
数据 库 中 搜索 回复 者 的 性 别 的 一 个 “检索 词 ”、 维 度 或 数据 库 字 段 。 如 果 回 复 者 的 性 别 维度 与 聊 
天 机 器 人 的 性 别 相 匹配 ,而 且说 的 语句 词 或 语义 向 量 与 用 户 语句 中 的 相应 向 量 非 常 匹配 , 那么 这 
将 是 搜索 结果 顶部 的 一 个 很 好 的 匹配 项 ,实践 此 匹配 的 最 佳 方法 是 每 次 检索 到 一 条 回复 时 计算 一 
个 评分 函数 ， 并 在 此 评分 中 包含 一 些 个 性 档案 匹配 的 信息 。 

此 外 , 我 们 也 可 以 通过 为 机 器 人 创建 后 台 配 置 文件 并 手动 将 其 存储 在 知识 库 中 来 解决 此 上 下 
文 的 问题 。 这 时 大 家 只 需 确 保 在 聊天 机 器 人 的 数据 库 中 只 包含 与 此 配置 文件 匹配 的 回复 。 

无 论 如 何 使 用 该 配置 文件 使 聊天 机 器 人 具备 前 后 一 致 的 个 性 , 都 需要 把 处 理 与 个 性 配置 文件 
相关 的 问题 作为 特殊 情况 。 如 果 问 答 数 据 库 没有 包含 问题 的 很 多 答案 , 这 样 的 问题 如 “你 是 谁 ? ” 
“你 来 自 哪 里 ? ”和 “你 最 喜欢 什么 颜色 ? ”, 那么 除 检索 之 外 , 我们 还 需要 使 用 其 他 聊天 机 器 人 
技术 。 如 果 没 有 很 多 配置 文件 相关 的 问答 对 ,就 需要 检查 有 关机 器 人 的 任何 问题 , 并 使 用 知识 库 
为 提问 中 的 相关 要 点 “推断 ”适当 的 答案 。 此 外 ,我 们 也 可 以 使 用 基于 语法 的 方法 来 填充 模板 化 
回复 ,使 用 从 存储 聊天 机 器 人 配置 文件 的 结构 化 数据 集中 检索 到 的 信息 。 

为 了 将 状态 或 上 下 文 结合 到 基于 检索 的 聊天 机 器 人 中 , 我 们 可 以 做 一 些 类 似 于 对 模式 匹配 聊 
天 机 器 人 所 做 的 操作 。 不 妨 想 一 想 , 罗列 一 堆 用 户 对 话 只 是 指定 模式 的 男 一 种 方式 而 已 。 事实 上 ， 
这 正 是 亚马逊 的 Lex 和 谷歌 的 Dialogflow 采用 的 方法 ,我 们 可 以 不 用 定义 严格 的 模式 来 匹配 用 户 
指令 ， 而 只 需 为 对 话 引 擎 提供 一 些 示例 。 因 此 ， 就 像 在 模式 匹配 聊天 机 器 人 中 将 状态 与 每 个 模式 
相关 联 一 样 ， 大 家 只 需要 为 每 个 问答 示例 对 也 标记 一 个 命名 的 状态 。 

如 果 作 为 示例 的 问答 对 来 自 非 结 构 化 、 未 经 过 滤 的 数据 源 (如 Ubuntu Dialog Corpus 或 
Reddit )， 那 么 标记 过 程 可 能 很 困难 。 但 是 如 果 使 用 Reddit 等 对 话 训 练 集 ， 我 们 一 般 会 发 现 大 数 
据 集 的 某 一 小 部 分 可 以 根据 其 频道 和 回复 主题 自动 标记 。 我们 可 以 使 用 语义 搜索 和 模式 匹配 工具 
来 聚 类 特定 主题 或 讨论 开始 之 前 的 初始 评论 。 然 后 这 些 聚 类 的 结果 可 以 成 为 我 们 的 状态 。 然 而 ， 
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检测 从 一 个 主题 或 状态 到 为 一 个 主题 或 状态 的 转换 可 能 是 困难 的 ,能够 用 这 种 方式 生成 的 状态 并 
不 像 手工 生成 的 那样 精准 。 

如 有 果 机 器 人 只 用 于 娱乐 和 对 话 , 那么 这 种 状态 (上 下 文 ) 管 理 的 方法 可 能 是 一 个 可 行 的 选择 。 
但 是 , 如果 需 要 聊天 机 器 人 具有 可 预测 且 可 靠 的 行为 , 那么 我 们 可 能 会 继续 使 用 模式 匹配 方法 或 
手工 生成 状态 转换 。 








12.4.2 ”基于 示例 检索 的 聊天 机 器 人 


我 们 将 遵循 ODSC 2017 教程 构建 基于 检索 的 聊天 机 器 人 。 如 果 想 查看 这 个 教程 的 视频 或 
原始 笔记 ， 请 访问 https://github.com/totalgood/prosocial-chatbot 检 出 GitHub 代码 库 的 相关 
资源 。 

我 们 的 聊天 机 器 人 将 使 用 Ubuntu Dialog Corpus， 这 是 一 套 在 Ubuntu IRC 频道 上 记录 的 问答 
集合 , 在 这 个 频道 上 人 们 互相 帮助 解决 技术 问题 。 它 包含 超过 700 万 个 话语 和 100 多 万 个 对 话 会 
话 ， 每 个 会 话 都 有 多 轮 和 多 个 例句 。 数量 巨大 的 问答 对 使 其 成 为 一 个 受 欢 迎 的 数据 集 ， 研 究 人 
员 用 它 来 评估 基于 检索 的 聊天 机 器 人 的 精确 性 。 

这 些 是 大 家 “训练 ”基于 检索 的 聊天 机 器 人 需要 的 那 种 问答 对 。 但 不 要 担心 ,我 们 不 会 使 用 
所 有 700 万 个 例句 ， 而 只 需要 使 用 大 约 15 万 轮 ， 看 看 是 否 足 以 让 聊天 机 器 人 学 到 一 些 常见 的 
Ubuntu 问题 的 答案 。 要 开始 使 用 该 数据 集 ， 请 下 载 代码 清单 12-9 中 以 字 节 数 标 出 大 小 的 Ubuntu 
语料库 。 























代码 清单 12-9 ch12 _retrieval.py 





>>> from nlpia.data.loaders import get data 

>>> df = get data('ubuntu dialog') 

Downloading ubuntu dialog 

requesting URL: 

https://.../s/krvi79fbsryytc2/ubuntu dialog.csv.gz?dl1=1 

remote size: 296098788 

Downloading to /Users/hobs/src/nlpia/nlpia/bigdata/ubuntu dialog.csv.gz 
39421it [00:39, 998.09it/s] 


如 果 没 有 在 大 数据 集 上 使 用 过 nlpia.data.loaders.get qdata() ， 则 可 能 会 收 到 有 关 
/pigdata/ 路 径 不 存在 的 警告 。 但 是 当 大 家 第 一 次 运行 时 ， 下 载 器 会 为 我 们 创建 该 路 径 。 

注意 ”如果 大 家 有 8 GB 可 用 内 存 ， 上 述 脚 本 将 正常 运行 。 如 果 内 存 不 足 ， 请 尝试 减 小 数据 集 一 一 通 

过 df 模块 切 出 少量 行 数 。 在 下 一 章 中 ,我 们 使 用 gensim 批量 处 理 “ 超 出 内 存 ” 的 数据 ， 这 样 我 

们 可 以 使 用 更 大 的 数据 集 。 





Q@ 详 见 2015 年 Lowe 等 人 发 表 的 文章 “The Ubuntu Dialogue Corpus: A Large Dataset for Research in Unstructured 
Multi-Turn Dialogue Systems”。 
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这 个 语料库 的 一 部 分 示例 内 容 如 代码 清单 12-10 所 示 。 





代码 清单 12-10 ch12_retrieval.py 


>>> df.head (4) 


Context Utterance 
0 i think we could import the old comments Via r... basically each xfree86 
upload will NOT force u... 
1 I'm not suggesting all - 
only the ones you mod... oh? oops. _eou 
2 afternoon all eou not entirely related to ... we'll have a BOF about 
this eou so you're ... 
3 interesting _eou grub-install worked with / 
i fully endorse this suggestion </quimby> _eo... 


注意 到 “ ”eou ” 词 条 了 吗 ? 这 看 起 来 可 能 是 一 个 在 处 理 上 非常 具有 挑战 性 的 数据 集 。 但 
它 可 以 让 我 们 练习 一 下 自然 语言 处 理 中 常见 的 预 处 理 挑战 。 该 词 条 表示 “发 言 结 束 ”， 即 “发 言 
者 ”在 其 IRC 客户 端 上 点 击 [返回 ] 或 [发 送 ] 的 时 刻 。 如 果 打 印 出 一 些 示例 上 下 文 ( Context ) 字段 ， 
我 们 会 发 现 还 有 “_eot_”(“ 轮 次 结束 ”) 标记 , 该 标记 表示 某 人 已 经 结束 发 言 并 正在 等 待 回复 。 

但 是 如 果 我 们 把 目光 放 在 单个 上 下 文 文档 ( 表格 中 的 行 ), 那么 我 们 会 看 到 有 多 个 “_eot 
( 轮 次 ) 标记 。 这 些 标记 可 以 帮助 更 智能 的 聊天 机 器 人 测试 它们 如 何 处 理 我 们 在 上 一 节 中 讨论 过 
的 上 下 文 问题 。 但 是 大 家 要 和 忽略 语料库 中 额外 的 轮 次 , 而 只 需 关注 最 后 一 轮 ， 即 发 言 (utterance ) 
回复 的 那 一 轮 。 首 先 ， 我 们 创建 一 个 函数 来 按照 “_eot ”符号 拆 分 并 清理 “eou ”标记 ， 
如 代码 清单 12-11 所 示 。 








?7? 


代码 清单 12-11 ch12_retrieval.py 





>>> import re 


>>> def split turns(s, splitter=re.compilel(' eot ')): 
for utterance in splitter.split(s): 
utterance = utterance.replace(' eou ', '\n') 
utterance = utterance.replacel(' eot ', '').strip() 


if len(utterance): 
yield utterance 


我 们 在 DataFrame 中 的 几 行 数据 上 运行 split_turns 函数 ， 看 看 它 是 否 有 用 。 我 们 将 仅 从 
Context 和 Utterance 字段 中 提取 最 后 一 轮 对 话 ， 看 看 是 否 足 以 训练 基于 检索 的 聊天 机 器 人 。 具 
体 代码 如 代码 清单 12-12 所 示 。 





代码 清单 12-12 ch12_retrieval.py 


>>> for i, record in df.head(3) .Iterrows () : 


Statement = list(split turns (record.Context))[-1] 
reply = list(split turns (record.Utterance))[-1] 
print('Statement: {}'.format (statement)) 

print() 

print('Reply: {}'.format (reply)) 
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输出 的 结果 如 下 : 


Statement: I would prefer to avoid it at this stage. this is something that 
has gone into XSF svn, I assume? 
Reply: each xfree86 upload will NOT force users to upgrade 100Mb of fonts 
for nothing 
no something i did in my spare time. 


Statement: ok, it sounds like you're agreeing with me, then 
though rather than "the ones we modify", my idea is "the ones we need to 
merge" 
Reply: oh? oops. 


Statement: should g2 in ubuntu do the magic dont-focus-window tricks? 
Join the gang get an x-series thinkpad 

sj has hung on my box, again. 

what is monday mornings discussion actually about? 
Reply: we'll have a BOF about this 

SO you're coming tomorrow ? 


非常 好 ! 看 起 来 该 数据 有 多 个 语句 (话语 ) 的 提问 和 回复 。 因 此 ， 上 述 脚 本 执行 的 正 是 我 们 
想 要 的 操作 ， 我 们 可 以 使 用 它 来 填充 问 - 答 对 映射 表 ， 如 代码 清单 12-13 所 示 。 


代码 清单 12-13 ch12_retrieval.py 





>>> from tdqm import tqdm 


>>> def preprocess ubuntu corpus (df): 


mm 


Split all strings in df.Context and df.Utterance on 





_eot _ (turn) markers 

statements = [] 这 里 需要 一 个 让 ， 因 
replies = [] 为 有 些 提 问 和 回复 只 
for i, record in tqdm(df.iterrows()): 包含 空白 符 


turns = list(split turns (record.Context)) 
statement = turns[-1] if len(turns) else '\n' 
statements.append (statement) 
turns = list(split turns (record.Utterance)) 
reply = turns[-1] if len(turns) else 'Nn' 
replies.append (reply) 

df['statement'] = statements 

df['reply'] = replies 

return df 


现在 , 我 们 需要 在 语句 ( statement ) 列 中 检索 与 用 户 语句 最 接近 的 匹配 ,并 使 用 回复 ( reply ) 
列 中 相应 的 回复 进行 回答 。 大 家 是 否 记 得 在 第 3 章 中 如 何 使 用 词 频 向 量 和 TF-IDF 向 量 查 找 相 似 
的 自然 语言 文档 ? 具体 做 法 参见 代码 清单 12-14。 











代码 清单 12-14 ch12 _retrieval.py 


>>> from sklearn.feature extraction.text import TfidfVectorizer 
>>> df = preprocess ubuntu corpus (df) 
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>>> tfidf = TfidfVectorizer(min df=8, max df=.3, max features=50000) 



































>>> tfidf.fit(df.statement) 注意 , 这 里 只 需要 计算 提问 (不 包括 回 
复 ) 的 TF-IDF， 因 为 提问 是 我 们 需要 
搜索 的 对 象 


我 们 创建 一 个 名 为 XX 的 DataFrame, 保存 15 万 条 语句 的 所 有 TF-IDF 向 量 , 如 代码 清单 12-15 
所 示 。 





代码 清单 12-15 ch12 _retrieval.py 


> 4 
>>> XxX 


查找 最 接近 语句 的 一 种 方法 是 计算 从 查询 语句 到 X 矩阵 中 所 有 语句 的 余弦 距离 ， 如 代码 清 
单 12-16 所 示 。 


tfidf.transform(df.statement) 
pd.DataFrame (X.todense(), columns=tfidf.get feature names () ) 





代码 清单 12-16 ch12 _retrieval.py 


>>> x = tfidf.transform(['This is an example statement that\ 
Se we want to retrieve the best reply for.'] 

>>> cosine similarities = x.dot (Xx.T) 

>>> reply = df.loc[lcosine similarities.argmax()] 


这 需要 很 长 的 时 间 ( 在 我 的 MacBook 上 超过 一 分 钟 )， 而 且 我 们 甚至 没有 计算 置信 度 值 ， 也 
没有 获取 与 其 他 指标 相 结 合 的 所 有 可 能 的 回复 列表 。 


12.4.3 ”基于 搜索 的 聊天 机 器 人 


如 果 想 要 匹配 的 模式 就 是 人 们 在 之 前 的 对 话 中 说 过 的 内 容 该 怎么 办 ?这 就 是 基于 搜索 的 聊 
天 机 器 人 (或 基于 检索 的 聊天 机 器 人 ) 所 做 的 事情 。 基 于 搜索 的 聊天 机 器 人 对 对 话语 料 库 进 行 索 
引 ， 以 便 我 们 可 以 轻松 检索 到 和 要 回复 的 语句 相似 的 之 前 的 语句 。 随 后 , 它 可 以 回复 语料库 中 与 
该 语句 关联 的 一 个 回复 ,该 回复 已 经 被 “记忆 ”和 索引 以 便 快 速 检 索 。 

如 果 想 快速 开始 使 用 基于 搜索 的 聊天 机 器 人 ,那么 Gunther Cox 的 ChatterBot 是 一 个 非常 不 
错 的 框架 。 它 易于 安装 (只 需 执行 Pip install ChatterBot )， 并 附带 了 几 个 对 话语 料 库 ， 
大 家 可 以 用 它 来 “训练 ”聊天 机 右 人 以 进行 基本 的 对 话 。ChatterBot 有 一 个 语料库 ， 可 以 让 它 谈 
论 诸如 赛事 花 佘 、 人 工 智 能 感知 相关 的 哲学 , 或 者 只 是 闲聊 。ChatterBot 可 以 在 任何 对 话 序 列 ( 对 
话语 料 库 ) 上 “训练 ”。 不 要 把 这 当 作 机 器 学 习 训练 ， 而 只 需 当 作对 一 组 文档 进行 索引 以 便 搜 索 。 

默认 情况 下 ，ChatterBot 在 训练 过 程 中 使 用 人 类 双方 的 语句 作为 自己 的 语句 材料 。 如 果 想 要 
更 精确 地 定义 聊天 机 器 人 个 性 ， 则 需要 以 ChatterBot 的 “.yml” 格 式 创 建 自 己 的 语料库 。 为 确保 
聊天 机 器 人 只 能 模仿 一 种 个 性 ， 请 确保 语料库 中 的 每 个 对 话 只 包含 两 条 语句 ， 一 条 是 提问 ， 另 一 
条 是 回复 ， 而 回复 来 自 想 要 模仿 的 个 性 。 顺 便 提 一 下 ， 这 种 格式 类 似 于 AIML ， 有 一 个 模式 
( ChatterBot 中 的 提示 statement ) 和 一 个 模板 ( ChatterBot 中 的 response )。 

当然 ， 以 这 种 方式 构建 的 基于 搜索 的 聊天 机 器 人 非常 受 限 。 它 永远 无 法 赶 上 新 语句 的 出 现 。 
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我 们 拥有 的 数据 越 多 ， 亦 力 搜索 之 前 所 有 的 语句 就 越 难 。 因 此 ， 机 器 人 越 聪 明 优化 程度 越 高， 它 就 
越 慢 。 这 种 架构 不 能 很 好 地 扩展 。 因 此 ， 我 们 会 介绍 一 些 先进 的 技术 来 扩展 任何 一 个 基于 搜索 或 索 
引 的 带 有 索引 工具 的 聊天 机 器 人 ， 这 些 索 引 工具 如 局 部 敏感 哈 希 表 (pip install 1shash3 ) 和 
近似 接近 邻居 算法 (pip install annoy ) 等 索引 工具 。 

由 于 开 箱 即 用 ，ChatterBot 使 用 SQLite 作为 其 数据 库 ， 一 旦 语料库 中 超过 大 约 1 万 条 语句 ， 
扩展 性 的 问题 就 会 凸显 出 来 。 如 果 想 要 在 Ubuntu Dialog Corpus 上 训练 一 个 基于 SQLite 的 
ChatterBot ， 毫 不 夸张 地 说 ， 这 会 需要 儿 天 时 间 。 我 在 MacBook 上 花 了 一 天 多 的 时 间 只 处 理 了 10 
万 条 问答 对 。 尽 管 如 此 ， 这 个 ChatterBot 代码 对 于 下 载 和 处 理 上 述 Ubuntu 相关 的 技术 对 话 宝 藏 
非常 有 用 。ChatterBot 会 为 大 家 完成 所 有 的 记 账 (bookkeeping ) 工作 ， 在 遍历 “多 时 节点 ”文件 
系统 树 检 索 每 个 会 话 之 前 自动 下 载 并 解压 缩 tarball 文件 。 

ChatterBot 的 “训练 ”数据 ( 实际 上 只 是 一 个 对 话语 料 库 ) 在 关系 数据 库 中 的 存储 方式 如 代 
码 清单 12-17 所 示 。 


代码 清单 12-17 ch12 chatterbot.sql 


sqlite> .tables 

conversation response tag 
conversation association statement tag association 
sqlite> .width 5 25 10 5 40 

sqlite> .mode columns 

sqlite> .mode column 

sqlite> .headers on 

sqlite> SELECT id, text, occur FROM response LIMIT 9; 














id text occur statement text 

压 What is AI? 2 Artificial Intelligence is the branch of 
2 What is AI? 2 AI is the field of science which concern 
已 Are you sentient? 色 SOrt GE; 

4 Are you sentient? 之 By the strictest dictionary definition oOo 
5 Are you sentient? 名 Even though I'm a construct I do have a 
6 Are you sapient? 2 In all probability, I am not. Im not t 
7 Are you sapient? 2 Do you think I am? 

8 Are you sapient? 2 How would you feel about me if I told yo 
9 Are you sapient? 24 No. 





注意 , 某 些 语句 有 许多 与 其 关联 的 不 同 回复 , 这 使 聊天 机 器 人 可 以 根据 情绪 、 上 下 文 或 者 随 
机 在 可 能 的 回复 中 进行 选择 。ChatterBot 仅 随 机 选择 一 个 回复 ， 但 是 如 果 大 家 结合 其 他 一 些 目标 
冰 数 或 损失 函数 或 通过 启发 式 方法 来 干预 选择 的 话 , 那么 机 器 人 的 回复 可 能 会 更 加 复杂 。 另 外 请 
注意 ，created at 字段 对 应 的 日 期 都 是 相同 的 。 这 正 是 我 们 运行 ChatterBot“ 训 练 ” 脚 本 的 日 
期 ， 该 脚本 下 载 对 话语 料 库 并 将 它们 加 载 到 数据 库 中 。 

基于 搜索 的 聊天 机 器 人 也 可 以 通过 将 语句 字符 串 降 维 到 固定 维度 的 主题 向 量 来 改进 ， 例 如 使 
用 诸如 Word2vec ( 对 短语 句 中 的 所 有 词 向 量 求 和 )、Doc2vec (第 6 章 ) 或 LSA (第 4 章 ) 之 类 的 
方法 。 降 维 将 有 助 于 机 器 人 通过 训练 样本 进行 泛 化 。 这 有 助 于 当 查 询 语句 ( 机 器 人 交谈 对 象 的 最 近 
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一 条 语句 ) 和 语料库 的 某 个 语句 意思 相近 时 , 即使 双方 使 用 不 同 的 词 , 机 器 人 也 能 够 作出 恰当 的 回 
复 。 即 使 语句 的 拼写 或 字符 差异 很 大 , 该 方法 也 会 起 作用 。 本 质 上 ,这 个 基于 语义 搜索 的 聊天 机 咒 
人 正 自动 编写 本 章 前 面 大 家 用 AIML 编写 的 模板 。 与 硬 编码 的 机 器 智 能 方法 相 比 ， 这 种 降 维 还 使 
基于 搜索 的 聊天 机 咒 人 通过 机 器 学 习 (数据 驱动 ) 变 得 更 加 智能 。 当 有 大 量 的 标记 数据 时 ,机 带 学 
习 比 硬 编码 更 好 ， 不 需要 花费 大 量 时 间 ( 编写 错综复杂 的 逻辑 和 模式 来 触发 响应 )。 对 于 基于 搜索 
的 聊天 机 器 人 ， 唯 一 需要 的 “标记 ”是 对 话 中 每 条 示例 语句 对 应 的 示例 响应 。 


12.5 ”生成 式 方法 


本 章 前 面 我 们 说 要 介绍 一 个 生成 式 模型 。 但 是 如 果 回 想 一 下 在 第 10 章 中 创建 的 序列 到 序列 
的 模型 ,我 们 就 可 以 把 它们 当 作 生成 式 聊天 机 器 人 。 它们 是 基于 机 器 学 习 的 翻译 算法 , 可 以 将 用 
户 的 语句 “翻译 ”为 聊天 机 器 人 的 回复 。 所 以 我 们 在 这 里 不 再 详细 介绍 生成 式 模型 ， 但 需要 知道 
的 是 ， 还 存在 很 多 种 生成 式 模型 。 

如 果 想 构建 一 个 富有 创造 力 的 聊天 机 器 人 , 说 一 些 它们 之 前 从 未 说 过 的 话 , 那么 下 面 这 些 生 
成 式 模型 可 能 是 我 们 所 需要 的 : 

国 序列 到 序列 一 一 序列 模型 ， 训 练 根据 输入 序列 生成 回复 ; 

图 受 限 玻 尔 兹 曼 机 (RBM ) 一 一 马尔 可 夫 链 ， 训 练 最 小 化 “能 量 ”函数 "; 

加 生成 式 对 抗 网 络 ( GAN ) 一 一 统计 模型 ， 训 练 欺骗 “善于 谈话 ”的 裁判 ”。 

我 们 在 第 10 章 中 讨论 了 注意 力 网 络 (增强 型 LSTM ), 并 且 我 们 展示 了 聊天 机 器 人 可 以 自发 
生成 的 各 种 新 颖 语句 。 在 下 一 节 中 ， 我 们 从 另 一 个 方向 谈 谈 这 种 方法 。 


























































































































12.5.1 聊 聊 NLPIA 


终于 ， 我 们 等 来 了 期 竺 已 久 的 那 一 刻 …… 一 个 可 以 辅助 编写 NLP 方向 书籍 的 聊天 机 器 人 。 
我 们 终于 为 聊天 机 器 人 写 了 ( 同时 大 家 都 已 经 阅读 过 ) 足够 的 文本 来 作为 种 子 语 料 使 用 。 在 本 节 
中 ， 我 们 将 介绍 如 何 使 用 迁移 学 习 来 构建 生成 式 NLP 流水 线 ， 从 而 生成 一 些 可 能 在 大 家 没有 注 
意 的 情况 下 已 经 浏览 过 的 句子 。 

为 什么 使 用 迁移 学 习 ? 除了 那些 希望 聊天 机 器 人 理解 的 关于 特定 主题 的 种 子 文本 , 生成 式 模 
型 还 需要 更 一 般 的 文本 组 成 的 更 大 语料库 来 学 习 语 言 模型 。 聊天 机 器 人 需要 通过 大 量 阅读 才能 识 
别 出 词 组 合 在 一 起 形成 语法 正确 且 有 意义 的 句子 的 所 有 方式 , 并 且 该 语料库 必须 被 切 分 成 语法 正 
确 的 句子 ， 所 以 古 腾 堡 语料库 不 是 这 个 模型 理想 的 用 武之 地 。 

回想 一 下 ， 当 我 们 还 是 孩童 时 , 在 拥有 足够 的 词汇 量 以 及 对 于 将 词 正 确 组 合成 句子 有 感觉 之 
前 需要 阅读 的 书籍 数量 。 当 练习 阅读 时 ， 老 师 可 能 会 给 大 家 很 多 提示 ， 如 背景 知识 。 此 外 ， 人 






















































































GD Hinton 在 Coursera 的 演讲 。 
@ Ian Goodfellow 在 NIPS2016 上 关于 GAN 的 教程 ， 以 及 Lantau Yu 在 文本 序列 上 的 适 配 工作 。 


“On the role of context in first- and second-language vocabulary learning” 。 
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类 在 学 习 领 域 比 机 器 擅长 得 多 。 

这 种 数据 密集 型 语言 模型 的 学 习 对 基于 字符 的 模型 来 说 是 一 个 巨大 的 挑战 。 在 字符 序列 语言 
模型 中 ,聊天 机 器 人 除了 需要 学 习 如 何 将 字符 组 合 在 一 起 以 组 成 拼写 正确 且 有 意义 的 词 , 还 要 学 
习 如 何 将 这 些 新 词组 合 在 一 起 组 成 句子 。 因 此 , 我 们 需要 复 用 基于 想 要 机 器 人 模仿 的 语言 和 风格 
的 大 量 文本 上 训练 好 的 现 有 语言 模型 。 如 果 再 细 想 一 下 , 大 家 就 会 发 现 为 什么 数据 的 局 限 性 决定 
了 目前 NLP 研究 人 员 在 从 字符 到 词 再 到 句子 这 条 复杂 弯曲 的 道路 上 能 够 走 多 远 。 生 成 段落 、 章 
节 和 小 说 还 是 一 个 活跃 的 研究 领域 。 因 此 ,关于 生成 式 模型 我 们 先 介绍 到 这 里 ， 下 面 展 示 如 何 生 
成 一 些 句 子 ， 例 如 为 本 书 的 “关于 本 书 ” 等 生成 的 句子 。 

DeepMind 的 人 提供 了 TensorFlow 基于 字符 的 序列 到 序列 语言 模型 ， 该 模型 在 超过 500 MB 
来 自 CNN 和 Daily Mail 新 闻 信息 流 的 句子 上 进行 了 预 训练 。 如 果 要 构建 自己 的 语言 模型 , 可 以 
参考 他 们 已 经 发 布 的 在 两 个 大 型 数据 集中 的 所 有 人 句子， 这 些 句 子 是 他 们 的 “阅读 理解 ”( Q&A ) 
挑战 数据 集 的 一 部 分 。 我 们 直接 复 用 预 训练 的 文本 摘要 模型 来 为 本 书 的 “关于 本 书 ”生成 句子 。 
大 家 还 可 以 使 用 一 种 称 为 “迁移 学 习 ” 的 方法 ， 用 这 些 模 型 来 增强 自己 的 机 器 学 习 流 水 线 ， 就 像 
我 们 在 第 6 章 中 对 词 向 量 的 做 法 一 样 。 

下 面 给 出 的 是 算法 的 描述 。 

(1 ) 下 载 预 训练 的 序列 到 序列 文本 摘要 模型 ( https://github.com/totalgood/pointer-generator# 
looking-for-pretrained-model )。 

(2 ) 使 用 nlpia.book parser 解析 和 切 分 asciidoc 文本 以 提取 自然 语言 句子 (https:/github. 
com/totalgood/nlpia/blob/master/src/nlpia/book-parser.py )。 

(3 ) 使 用 文本 摘要 模型 对 每 个 asciidoc 文件 (一 般 是 一 章 ) 的 前 30 行 左右 的 文本 进行 摘要 抽取 
( https://github.com/totalgood/nlpia/blob/master/src/nlpia/book/examples/ch12 chat about nlpia.py )。 

(4) 考虑 新 祝 性 ， 对 生成 的 句子 进行 过 滤 ， 避 免 出 现 书 中 已 有 的 句子 (https://github.conmytotalgood/ 
nlpia/blob/master/src/nlpia/book_parser.py )。 

以 下 是 我 们 的 @ChattyAboutNLPIA 机 器 人 得 到 仅 有 的 两 个 结构 良好 且 略 具 原 创 性 的 句子 。 
这 是 @Chatty 尝试 对 第 5 章 的 前 30 行进 行 摘要 提取 的 结果 : 











































































































Convolutional neural nets make an attempt to capture that ordering relationship by capturing 


localized relationships. 


( 卷 积 神经 网 络 试图 通过 捕获 局 部 关系 来 捕获 该 顺序 关系 。) 
下 面 是 @Chatty 对 第 8 章 的 总 结 : 








人 详 见 “One-shot and Few-shot Learning of Word Embeddings” 和 “One-shot learning by inverting a compositional 





causal process” 。 

@ 预 训练 的 TensorFlow 文本 摘要 模型 : 来 自 谷歌 大 脑 的 TextSum ( https://github.com/totalgood/pointer-generator# 
looking-for-pretrained-model )， 以 及 一 篇 介绍 该 模型 的 论文 。 

@ 数据 集 包括 阅读 理解 的 问题 和 答案 ， 以 及 你 需要 用 来 回答 这 些 问 题 的 新 闻 文章 中 的 句子 : DeepMind Q&A 


Dataset。 




















异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 





12.6 ”四 轮 驱动 345 


Language s true power is not necessarily in the words, but in the intent and emotion that 


formed that particular combination of words. 
(语言 的 真实 力量 不 一 定 在 词 中 ， 而 在 于 形成 特定 的 词组 合 的 意图 和 情感 中 。) 


这 些 句 子 出 自 该 25 个 输出 (src/nlpia/data/nlpia_ summaries.md )。 在 接 下 来 的 几 个 月 中 ,我 们 将 改 
进 nlpia.book.examples. ch12_chat_ about nlpia 中 的 流水 线 以 提供 更 有 用 的 结果 。 一 个 增强 方法 是 使 
用 TextSum 处 理 整 本 书 ， 这 样 算法 就 有 更 多 的 语 料 可 供 使 用 。 我 们 还 需要 采用 更 多 的 过 滤 规 则 : 

(1 ) 过 滤 生 成 的 句子 ， 留 下 那些 结构 良好 的 句子 ; “ 

(2 ) 以 自己 的 风格 和 情感 为 目标 过 滤 生 成 的 句子 ; 

(3 ) 如 有 必要 的 话 ， 自 动 还原 词 条 以 及 大 小 写 (使 用 大 写 )。 














12.5.2 ”每 种 方法 的 利 次 


现在 大 家 已 经 了 解 了 4 种 主要 的 聊天 机 器 人 实现 方法 , 那么 大 家 能 否 想 到 如 何 将 它们 结合 起 
来 在 自己 的 机 需 人 上 获得 最 好 的 效果 呢 ? 图 12-3 中 列 出 了 每 种 方法 的 优 缺 点 。 




















方法 人 于 缺点 
模式 匹配 方法 易于 上 手 有 限 的 “领域 
训练 易于 复 用 能 力 受 到 人 力 投入 的 限制 
模块 化 调试 困难 
易于 控制 /约束 硬性 脆弱 规则 
擅长 回答 逻辑 问题 听 起 来 像 是 人 工 的 、 机 械 的 
易于 控制 /约束 难以 处 理 含糊 不 清 的 情况 
难以 处 理 常 识 
受 结构 化 数据 的 限制 
需要 大 规模 的 信息 抽取 
需要 人 工 管理 
搜索 方法 简单 难以 扩展 
容易 “训练 ” 不 连贯 的 “人 格 
可 以 模仿 人 的 对 话 无 法 感知 上 下 文 
无 法 回答 事实 性 问题 
生成 方法 新 的 、 富 有 创造 力 的 对 话 方式 难以 “引导 ” 
更 少 的 人 力 投入 难以 训练 
领域 仅 受 数据 限制 需要 更 多 数据 (对 话 ) 
上 下 文 感 知 需要 更 多 处 理 才能 训练 





图 12-3 4 种 聊天 机 器 人 方法 的 优 缺 点 





12.6 ”四 轮 驱动 


正如 我 们 在 本 章 开 头 所 承诺 的 那样 ， 现 在 我 们 介绍 如 何 将 所 有 4 种 方法 结合 起 来 获得 用 户 
的 青睐 。 为 此 ， 我们 需要 一 个 易于 扩展 和 修改 的 现代 聊天 机 器 人 框架 ， 可 以 高 效 并 行 地 运行 这 











@ 感谢 Kyle Gorman 提供 的 100 多 条 建议 以 及 为 本 书 提供 的 一 些 巧 妙 的 内 容 。 
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些 算法 。" 我 们 将 基于 本 章 前 面 几 节 的 Python 示例 为 4 种 方法 中 的 每 一 种 都 添加 回复 生成 器 。 
然后 我 们 将 添加 逻辑 来 决定 选择 4 个 中 的 一 个 (或 多 个 ) 的 响应 来 回复 。 在 回复 之 前 ,我们 将 
让 聊天 机 器 人 思考 ,首先 生成 几 种 不 同方 法 的 回复 ， 然 后 对 某 些 备 选 方案 中 进行 排名 或 合并 来 
生成 回复 。 也 许 甚至 可 以 在 “点 击发 送 按钮 ”之 前 检测 用 户 的 情绪 ,来 尝试 让 回复 表现 出 亲 社 
会 的 特征 。 






































Wil 的 成 功 


Wil 是 Steven Skoczen 的 一 个 现代 的 对 程序 员 友 好 的 聊天 机 器 人 框架 ， 可 以 加 入 大 家 的 
HipChat、Slack 或 者 其 他 聊天 软件 的 频道 中 。Python 开发 人 员 会 喜欢 这 种 模块 化 的 架构 。 但 是 ， 
它 在 要 求 和 安装 方面 特别 复杂 。 和 幸运 的 是 ， 它 带 有 一 个 Docker 容 需 ， 可 以 用 来 启动 大 家 自己 的 
聊天 机 需 人 服务 器 。 

Wil 使 用 正则 表达 式 进行 匹配 ，Python 本 身 支 持 我 们 需要 评估 的 任何 逻辑 条 件 ，jinja2 库 用 
于 编写 模板 。 流水 线 中 的 每 个 部 分 都 为 我 们 给 聊天 机 器 人 添加 各 种 行为 的 类 型 提供 了 通用 性 和 灵 
活性 。 因此, Will 比 基 于 AIML 的 框架 更 灵活 。 但 是 , 它 也 会 遇 到 所 有 基于 模式 的 聊天 机 器 人 ( 包 
括 AIML ) 所 受 的 同样 限制 一 一 它 无 法 从 数据 中 学 习 ， 它 必须 通过 开发 人 员 的 “指导 ”为 逻辑 树 
中 的 每 个 分 支 编写 代码 。 


1. 安装 Will 


Wil 的 安装 文档 有 一 些小 问题 。 到 本 书 交 付 打 印 时 ， 我 们 希望 这 些 问题 能 够 被 修复 ， 这 样 大 家 
就 可 以 阅读 到 高 质量 的 文档 。 在 Mac OS X 上 ,我们 可 以 安装 并 启动 Redis 服务 器 (brew install 


redis )。 



































2. 你 好 Will 
如 果 大 家 忽略 关于 80 端口 权限 的 错误 消息 ， 或 者 摘 清 楚 如 何 避 免 这 些 错 误 ， 那 么 下 面 就 是 




















与 未 经 训练 的 Will 之 间 的 对 话 内 容 : 
OU Hey 
Will: hello! 
You: What's up? 
Will: I heard you but I'm not sure what to do. 
Yo How are you? 
Will: Doing alright. How are you? 
You: What are you? 
Will: Hmm. I'm not sure what to say. 
You: Are you a bot? 
Will: I didn't understand that. 











J 我 们 正在 Aira 开发 一 个 名 为 aichat 的 开源 聊天 机 器 人 框架 ， 来 帮助 我 们 的 用 户 和 他 们 的 朋友 为 我 们 
的 对 话 库 贡 献 内 容 ， 帮 助 视 障 人 士 并 给 他 们 带 来 欢乐 。 
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正如 大 家 所 看 到 的 ，Will 开 箱 即 用 ,而且 它 很 有 礼貌 ,但 知道 的 不 大 多。 大 家 可 以 很 容易 地 


把 Wi 改名 成 Rosa (或 任何 其 他 名 字 ), 并 且 可 以 使 用 自然 语言 处 理 技巧 来 给 它 充 实 一 些 模式 并 
扩展 它 的 语言 能 力 。 

















12.7 设计 过 程 


为 了 开发 有 用 的 应 用 程序 ， 产 品 经 理 和 开发 人 员 需 要 撰写 用 户 故 事 (user story )。 用 户 故 寻 
描述 了 用 户 在 与 应 用 程序 交互 时 执行 的 一 系列 操作 以 及 应 用 程序 应 该 如 何 响应 。 这 些 可 以 根据 
现实 世界 中 类 似 产品 的 相关 经 验 来 设想 , 也 可 以 根据 用 户 功 能 要 求 或 反馈 进行 推 窒 。 软 件 功能 
被 关联 到 用 户 故 事 中 , 从 而 提高 开发 工作 集中 在 可 以 为 我 们 的 产品 增加 实用 性 的 那些 功能 上 的 
可 能 性 。 

聊天 机 器 人 的 用 户 故 事 通常 可 以 由 用 户 与 机 带 人 交流 的 语句 (文本 消息 ) 组 成 。 然 后 ， 这 些 
用 户 的 语句 会 与 聊天 机 器 人 或 虚拟 助手 相应 的 回复 或 动作 配对 。 对 于 基于 检索 的 聊天 机 需 人 , 这 
个 用 户 故 事 表 就 是 “训练 ”特定 回复 和 用 户 故 事 的 聊天 机 器 人 所 需 的 全 部 数据 。 需 要 泛 化 的 用 户 
故事 由 我 们 开发 人 员 决定 , 所 以 我 们 的 设计 团队 不 必 指 定 机 器 人 必须 理解 的 所 有 内 容 以 及 它 可 以 
说 的 所 有 不 同 内 容 。 大 家 能 说 出 4 种 聊天 机 需 人 方法 分 别 适 用 于 下 面 哪 一 种 问题 吗 ? 

加 “Hello!” => “Hello!” 

“Hi” => “Hi!” 


“How are you?” => “I’m fine. How are you?” 





ey 






















































































“How are you?” => “I’m a stateless bot, so I don'’t have an emotional state.” 

“Who won the 2016 World Series?” => “Chicago Cubs” 

“Who won the 2016 World Series?” => “The Chicago Cubs beat the Cleveland Indians 4 to 3” 
“What time is it” => “2:55 pm” 


“When is my next appointment?” => “At 3 pm you have a meeting with the subject 
“Springboard call”” 

国 “When is my next appointment?” => “At 3 pm you need to help Les with her Data Science 

course on Springboard” 

国 “Who is the President?” => “Sauli Niinisto” 

国 “Who is the President?” => “Barack Obama” 

对 于 任何 给 定 的 语句 ， 即 使 用 户 和 上 下 文 完全 相同 ， 也 可 能 有 几 个 有 效 的 回复 。 另 外 ， 多 个 
不 同 的 提问 语句 通 稼 会 得 到 聊天 机 器 人 相同 的 回复 (或 一 组 可 能 的 回复 )。 提 问 语句 和 回复 之 间 
存在 双向 多 对 多 映射 ,就 像 人 类 对 话 一 样 。 因 此， 有效 提 问 语句 => 回复 的 映射 可 能 组 合 数量 是 
巨大 的 一 一 看 起 来 是 无 限 的 (但 在 技术 上 是 有 限 的 )。 

大 家 还 必须 使 用 命名 变量 存储 经 常 变动 的 上 下 文 元 素 , 扩展 用 户 故事 中 的 提问 语句 -回复 对 。 

加 日 期 。 
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时 间 。 
位 置 : 国家 、 州 、 县 和 市 ， 或 纬度 和 经 度 。 
区 域 设置 : 美国 或 芬兰 格式 的 日 期 、 时 间 、 货 币 和 数字 。 
接口 类 型 : 手机 或 笔记 本 电脑 。 
界面 形态 : 语音 或 文本 。 
历史 交互 : 用 户 最 近 是 否 询 问 有 关 棒 球 统计 数据 的 详细 信息 。 

国 ”从 移动 设备 传输 流 式 音频 、 视 频 和 传感器 数据 ( Aira.io )。 

IBM Watson 和 Amazon Lex 聊天 机 器 人 API 依赖 不 易 快速 变化 的 知识 库 , 并 与 那些 不 断 变 化 
的 上 下 文 变量 保持 同步 。 这 些 知 识 库 或 数据 库 的 “ 写 人 速率 ” 太 慢 了 ， 以 至 于 无 法 处 理 聊 天 机 器 
人 和 用 户 正在 进行 交互 的 许多 关于 这 个 世界 的 不 断 变化 的 事实 。 

即使 是 最 简单 的 聊天 机 器 人 , 其 可 能 的 用 户 故事 列表 在 技术 上 也 是 有 限 的 , 而 对 现实 世界 中 
最 简单 的 聊天 机 器 人 而 言 , 该 列表 是 非常 庞大 的 。 处 理 这 种 组 合 爆炸 的 一 种 方法 是 将 很 多 用 户 交 
互 组 合成 一 个 模式 或 模板 。 对 于 映射 的 提问 语句 侧 , 该 方法 等 效 于 创建 一 个 正则 表达 式 ( 或 有 限 
状态 机 ) 来 表示 需要 产生 指定 模式 回复 的 某 些 语句 组 。 对 于 映射 的 回复 侧 ， 该 方法 等 效 于 
Jinja2、Django 或 Python fstring 模板 。 

回想 第 1 章 中 的 第 一 个 聊天 机 器 人 ,我 们 可 以 通过 将 语句 的 正则 表达 式 映射 到 回复 的 Python 
f-string 的 方式 来 表示 提问 语句 => 回复 映射 

























































































>>> pattern response = { 
r"[Hhljellol|l [Hh]i[!l]*": 
r"Hello {user nickname}, would you like to Play a game?", 
r"[Hh]jow[\s]*('s|larel're)?[\s]*[Yy]ou([\s]*doin["'g]?)?": 
r"I'm {bot mood}, how are you?", 
} 


但 该 方法 并 不 支持 复杂 的 逻辑 ， 它 需要 手工 编码 而 不 是 机 融 学 习 。 因 此 ,每 个 映射 都 无 法 捕 
获 大 范围 的 语句 和 回复 。 大 家 可 能 希望 机 器 学 习 模 型 能 够 处 理 各 种 体育 赛事 问题 或 帮助 用 户 管理 
他 们 的 日 程 。 
重要 说 明 ”不 要 将 这 些 原始 字符 串 模 板 更 改 为 带 有 f" 的 f-string， 否 则 它们 将 在 实例 化 时 被 演 染 。 
在 创建 pattern response 字典 时 ， 机 器 人 可 能 对 这 个 世界 知之 甚 少 。 


以 下 是 一 些 示 例 聊天 机 器 人 的 用 户 故 事 ， 它 们 不 适合 模板 方法 。 

加 “我 的 家 在 哪里 ? ”=>“ 你 到 家 需要 步行 5 分 钟 ， 你 需要 指 路 吗 ? ” 

加 “我 在 哪里 ? ”=>“ 你 在 Portland 西南 方向 附近 的 Goose Hollow 旅馆 ”或 “你 在 Jefferson 
街道 西南 方向 2004 号 ” 

国 “ 谁 是 总 统 ?””=>“Sauli Niinist$” 或 “Barack Obama” 或 “什么 国家 或 公司 ……… > 

国 “ 谁 说 了 2016 年 世界 职业 棒球 大 赛 ? ”=>“ 芝 加 哥 小 熊 队 ”或 “芝加哥 小 熊 队 以 4 比 3 
击败 克利 夫 兰 印第安 人 队 ” 
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国 “ 几 点 了 ”一 “下 午 255” 或 “下 午 25355， 到 了 与 乔 会 面 的 时 间 ” 或 …… 

以 下 是 一 些 一 般 的 IQ 测试 问题 ， 这 些 问题 过 于 具体 ， 无 法 保证 每 个 变 体 都 有 对 应 的 模式 - 
回复 对 。 知 识 库 通常 提供 通用 智力 问题 的 答案 。 因 此 ， 这 可 能 是 Mitsuku 聊天 机 器 人 在 最 近 一 次 
Byron Reese 的 测试 中 能 够 给 出 接近 正确 答案 的 方法 。 

加 “哪个 更 大 ， 是 镍 还 是 一 角 钱 ? ”=>“ 物 理 上 或 货币 上 ? ”或 “ 镍 在 物理 上 更 大 日 更 重 ， 

但 在 货币 上 价值 更 低 ”。 





















































D) 
























































加 “哪个 更 大 ， 太 阳 还 是 旬 ? ”之 “太阳 ， 显然。” 
加 “垄断 的 好 策略 是 什么 ?”=>“ 尽 你 所 能 去 买 ， 而 且 运 气 好 。” 
加 “我 应 该 如 何 走出 玉米 区 型 的 迷宫 ?”=>“ 将 手 放 在 一 面 玉米 墙 上 ,然后 跟着 它 走 ， 直 到 


它 成 为 迷宫 的 外 墙 。* 
加 “ 海 玻 璃 来 自 哪 里 ””=>“ 垃 圾 …… 幸 运 的 是 ， 沙 子 和 时 间 的 打磨 有 时 会 让 人 类 的 垃圾 ， 
如 破碎 的 瓶子 ， 变 成 美丽 的 宝石 。 
虽然 这 些 不 太 容 易 直 接 转换 为 代码 ， 但 它们 确实 会 直接 转换 为 NLP 流水 线 的 自动 测试 集 。 
这 些 测试 可 用 于 评估 新 的 聊天 机 器 人 方法 或 功能 ， 或 仅 用 于 跟踪 一 段 时间 内 的 进度 。 如 果 大 家 
能 想到 更 多 聊天 机 器 人 的 IQ 问题 ， 请 将 它们 添加 到 nlpia/adata/iq test.csv 不 断 增长 的 列 
表 中 。 当 然 , 请 将 它们 包含 在 自己 的 聊天 机 器 人 的 自动 测试 中 。 大 家 永远 不 知道 自己 的 机 器 人 什 
么 时 候 会 让 你 们 大 吃 一 惊 。 


























12.8 技巧 


在 构建 聊天 机 器 人 时 , 我 们 会 需要 一 些 特殊 的 技巧 。 这 些 技巧 将 有 助 于 确保 聊天 机 器 人 不 会 
经 常 出 现 问题 。 


12.8.1 用 带 有 可 预测 答案 的 问题 提问 


当 被 问 到 一 个 不 知道 答案 的 问题 时 ,聊天 机 器 人 可 以 反问 一 个 泪 清 式 问题 。 如 果 这 个 澄清 式 
问题 完全 在 聊天 机 器 人 的 知识 领域 或 个 性 设 定 中 , 则 可 以 预测 人 类 将 要 做 出 的 回答 的 形式 。 然 后 ， 
聊天 机 器 人 可 以 使 用 用 户 的 回复 来 重新 获得 对 话 的 控制 权 ， 并 将 其 引导 回 到 它 所 了 解 的 主题 。 
为 了 避免 用 户 感觉 诅 形 ， 尽 量 使 澄清 式 问题 幽默 一 些 ， 或 积极 和 讨 人 喜欢 ， 或 以 某 种 方式 令 用 
户 满意 : 
































Human: "Where were you born?" 


Sports Bot: "I don't know but how about those Mets?" 
Therapist Bot: "I don't know but are you close to your mother?" 





Q@ 来 自 Byron Reese 的 podcast 播客 :“AI Minute”。 
@ 2017 年 吴 恩 达 ( Andrew Ng ) 给 斯 坦 福 大 学 商学 院 学 生 的 演讲 。 
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Ubuntu Assistant Bot: "I don't know but how do you shut down your Ubuntu PC 
at™ nioht?y 


我 们 通常 可 以 使 用 语义 搜索 在 聊天 机 器 人 的 知识 库 中 查找 问答 对 、 笑 话 或 有 趣 的 琐事 ， 当 然 
这 些 琐事 至 少 与 用 户 所 询问 的 内 容 相 关 。 


























12.8.2 ”要 有 趣 


有 时 , 生成 过 程 可 能 需要 很 长 时 间 才 能 收敛 得 到 高 质量 的 信息 。 或 者 聊天 机 器 人 可 能 找 不 到 
合适 的 澄清 式 问 题 来 发 问 。 在 这 种 情况 下 ， 聊 天 机 器 人 有 两 种 选择 : 一 是 承认 无 知 ， 二 是 编造 
个 不 合 逻 辑 的 推论 。 

不 合 逻 辑 的 推论 是 一 种 与 用 户 询问 的 内 容 无 关 的 语句 。 这 些 语 句 通常 被 认为 是 不 友好 的 , 有 
时 甚至 是 让 人 不 满 的 。 诚 实 是 亲 社 会 聊天 机 器 人 的 最 佳 策略 ， 而 且 越 坦诚 ,我 们 就 越 有 可 能 与 用 
户 建立 信任 关系 。 如 果 我 们 展示 能 够 处 理 的 回复 或 动作 的 数据 库容 量 ， 用 户 可 能 会 喜欢 了 解 一 下 
聊天 机 器 人 的 “内 心 ”。 我 们 还 可 以 分 享 一 些 无 法 通过 语法 和 样式 检查 器 的 混乱 的 回复 。 我 们 越 诚 
实 ， 用 户 就 越 有 可 能 回报 善心 并 尽力 帮助 聊天 机 器 人 重 回 正轨 。Cole Howard 发 现 ， 用 户 通常 会 通 
过 以 更 清晰 的 方式 重新 绘制 数字 来 引导 他 的 基于 MNIST 训练 的 手写 识别 器 以 获得 正确 的 答案 。 

因此 ， 对 商业 聊天 机 器 人 而 言 ， 我 们 可 能 希望 这 种 没 用 的 回复 听 起 来 引起 哗然 ,或 者 会 今 人 
分 心 、 讨 人 喜欢 或 十 分 幽默 。 并 且 ， 我 们 可 能 还 希望 能 够 确保 随机 选择 回复 ， 从 而 让 人 类 认为 回 
复 是 随机 的 。 例 如 ， 不 要 经 常 说 重复 的 话 。 或 者 ， 根 据 时 间 的 推移 ， 使 用 不 同 的 句子 结构 、 形 
式 和 风格 。 通 过 这 种 方式 ,我 们 可 以 监测 用 户 的 回复 并 评估 他 们 的 情绪 ， 以 确定 哪些 不 合 逻 辑 的 
推论 是 最 不 令 用 户 厌烦 的 。 




























































































12.8.3 当 其 他 所 有 方法 都 失败 时 ， 搜 索 


如 果 机 器 人 无 法 想 出 任何 要 说 的 话 , 请 尝试 像 搜索 引擎 或 搜索 栏 一 样 进行 搜索 , 搜索 可 能 与 
收 到 的 任何 问题 相关 的 网 页 或 内 部 数据 库 记 录 。 但 是 在 提取 页 面包 含 的 所 有 信息 之 前 , 一 定 要 询 
问 用 户 页 面 的 标题 是 否 对 用 户 有 用 。Stack Overflow 、 维 基 百 科 和 Wolfram Alpha 都 是 很 好 的 资源 ， 
随时 供 各 种 机 器 人 使 用 〈 因为 谷歌 会 这 样 做 并 且 用 户 也 这 样 期 望 )。 












































12.8.4 变 得 受 欢 迎 








如 果 具 有 一 些 用 户 乐意 听 到 的 笑话 ， 以 及 一 些 回 复 或 资源 的 链接 ,那么 一 般 情况 下 ,请 使 用 
这 些 而 不 是 问题 的 最 佳 匹配 来 进行 回复 , 尤其 在 匹配 率 较 低 的 情况 下 更 需要 如 此 。 这些 笑 话 或 资 
源 可 能 有 助 于 将 用 户 带 回 到 大 家 熟悉 且 拥 有 大 量 训 练 集 的 对 话 路 径 中 。 























Sg 


Q@ 人 类 低估 了 随机 序列 重复 的 次 数 (参见 本 书 下 载 资源 中 的 paper530.pdf 文件 )。 








异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 





12.9 现实 世界 351 
12.8.5 成 为 连接 器 
能 够 成 为 社交 网 络 枢纽 的 聊天 机 器 人 很 快 就 会 受到 用 户 的 欢迎 ,在 聊天 论坛 上 将 用 户 介绍 给 
其 他 人 , 或 者 是 那些 写 过 用 户 已 写 内 容 的 人 。 或 者 将 用 户 导向 博客 帖子 、 模 因 、 聊 天 频道 或 其 他 
和 他 们 可 能 感 兴趣 的 内 容 相 关 的 网 站 。 一 个 好 的 机 器 人 要 有 一 个 便于 使 用 的 热门 链接 列表 , 在 对 
话 开始 变 得 没有 新 意 时 使 用 。 
聊天 机 右 人 : 你 可 能 想见 见 @SuzyQ， 她 最 近 问 了 很 多 这 类 问题 。 她 或 许可 以 帮助 你 找到 


所 
输 案 。 





























也 


12.8.6” 变 得 有 情感 


谷歌 的 收 件 箱 电子 邮件 回复 程序 类 似 于 我 们 想 要 解决 的 对 话 聊天 机 器 人 问题 。 自动 回复 程序 
必须 根据 收 到 的 电子 邮件 的 语义 内 容 提出 回复 建议 。 但 是 , 在 电子 邮件 的 往来 中 , 不 太 可 能 出 现 
针对 邮件 的 一 长 串 回复 。 对 于 电子 邮件 自动 回复 程序 ,提问 文本 通常 比 对 话 聊天 机 器 人 中 的 长 得 
多 。 尽管 如 此 ,这 两 个 问题 都 涉及 针对 输入 文本 生成 文本 回复 。 解决 其 中 一 个 问题 的 许多 技术 可 
能 也 适用 于 男 一 个 问题 。 

尽管 谷歌 可 以 访问 数 十 亿 封 电子 邮件 ,但 Gmail 收 件 箱 中 的 “智能 回复 ”功能 中 给 大 家 推送 
的 配对 回复 往往 倾向 于 简短 、 通 用 、 直 白 。 如 果 想 针对 普通 电子 邮件 用 户 实现 回复 的 正确 性 的 最 大 
化 , 语义 搜索 方法 可 能 会 产生 相对 通用 、 直 白 的 回复 。 通 用 回复 不 太 可 能 有 很 多 个 性 或 情感 的 因素 。 
因此 ， 耸 歌 使 用 了 一 个 出 人 意料 的 语料库 〈 浪漫 小 说 )， 为 他 们 建议 的 回复 增加 了 一 些 情感 因素 。 

事实 证 明 ， 浪 漫 小 说 倾向 于 遵循 可 预测 的 情节 ， 并 且 附 带 能 够 容易 地 剖析 和 模仿 的 情感 丰富 的 
对 话 。 它 包含 了 多 种 情感 。 现 在 我 不 确定 谷歌 是 如 何 从 浪漫 小 说 中 收集 类 似 于 “ 那 太 棒 了 ! 算 我 一 
个 ! ”或 “ 酷 ! 我 会 在 那里 。” 的 短语 ,但 他 们 声称 这 是 他 们 用 Smart Reply 建议 生成 情绪 感叹 的 来 源 。 






























































12.9 现实 世界 


这 里 创建 的 混合 型 聊天 机 器 人 可 以 灵活 地 应 用 于 最 常见 的 现实 世界 的 应 用 程序 。 事 实 上 , 大 
家 可 能 在 本 周 的 某 个 时 候 与 下 面 这 样 的 聊天 机 器 人 进行 了 互动 : 
图 客服 助手 ; 
销售 助手 ; 
营销 (垃圾 邮件 ) 机 器 人 ; 
玩具 或 陪伴 机 器 人 ; 
视频 游戏 AI; 
移动 助手 ; 
家 庭 自 动 化 助手 ; 
可 视 化 解释 器 ; 
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国治 疗 师 机 天 人 ; 
加 自动 电子 邮件 回复 建议 。 
并 且 大 家 可 能 会 越 来 越 多 地 遇 到 类 似 于 本 章 中 构建 的 聊天 机 器 人 。 用 户 界面 设计 正在 渐渐 摆 
脱 机 器 的 严格 逻辑 和 数据 结构 的 约束 。 越 来 越 多 的 机 器 正在 被 引导 如 何 与 人 类 通过 自然 、 流 畅 的 
对 话 交 互 。 随 着 聊天 机 器 人 变 得 更 加 有 用 ， 同 时 更 少 让 用 户 感到 诅 形 ,“ 声 音 优 先 ”的 设计 模式 
正 变 得 越 来 越 流行 。 这 种 对 话 系统 方法 给 用 户 带 来 比 点 击 按钮 和 向 左 滑动 更 丰富 、 更 复杂 的 用 户 
体验 。 随 着 聊天 机 器 人 在 幕后 与 我 们 交互 ， 它 们 正在 越 来 越 深 入 地 融入 到 集体 意识 中 。 
不 管 是 出 于 个 人 兴趣 还 是 商业 利益 ， 现 在 大 家 已 经 学 会 了 所 有 关于 构建 聊天 机 器 人 的 方法 ， 
并 且 大 家 已 经 学 会 了 如 何 结合 生成 式 对 话 模 型 、 语 义 搜索 、 模 式 匹配 和 信息 提取 ( 知识 库 ) 来 生 
成 一 个 看 起 来 非常 智能 的 聊天 机 器 人 。 
大 家 已 经 掌握 了 智能 聊天 机 器 人 所 有 的 关键 NLP 组 件 ， 剩 下 的 唯一 挑战 就 是 赋予 它 自己 设 
计 的 个 性 。 在 耗 尽 了 笔记 本 电脑 中 的 内 存 、 硬 盘 和 CPU 资源 之 后 ， 大 家 可 能 想 要 “扩展 它 ” 让 
它 可 以 继续 学 习 。 我 们 将 在 第 13 章 中 介绍 如 何 做 到 这 一 点 。 































































































12.10 小 结 
国 通过 组 合 多 种 经 过 验证 的 方法 ,我 们 可 以 构建 智能 对 话 引 擎 。 
国 打破 4 种 主要 的 聊天 机 天 人 实现 方法 产生 的 回复 之 间 的 “联系 ”是 智能 的 关键 之 一 。 
加 ”我们 可 以 教会 机 器 一 辈子 的 知识 ， 而 无 须 花 一 辈子 的 时 间 给 它们 编程 。 
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本 章 主 要 内 容 

图 扩展 NLP 流水 线 

图 使 用 索引 加 速 搜索 

图 批 处 理 减 少 内 存 占 用 
加 并 行 化 加 速 NLP 


国 在 GPU 上 运行 NLP 模型 训练 过 程 





在 第 12 章 中 ， 我 们 学 习 了 如 何 使 用 NLP 工具 箱 中 的 所 有 工具 来 构建 能 够 进行 对 话 的 NLP 








流水 线 。 我 们 基于 小 型 数据 集 演 示 了 上 述 聊天 机 器 人 对 话 能 力 的 简单 示例 。 该 对 话 系统 的 类 人 程 
度 或 者 智商 似乎 受到 训练 数据 的 限制 。 如 果 可 以 通过 扩展 以 处 理 更 大 规模 的 数据 集 , 那么 我 们 前 
面 学 到 的 大 多 数 NLP 方法 都 能 提供 越 来 越 好 的 结果 。 















































大 家 可 能 已 经 注意 到 ， 如 细 




















在 大 型 数据 集 上 运行 我 们 给 出 的 某 些 示例 , 那么 计算 机 会 失去 响 


应 甚至 月 溃 。 通 过 nlpia.data.loaders.get_ data() 获得 的 某 些 数 据 集会 超过 大 部 分 PC 或 


笔记 本 电脑 的 内 存 (RAM )。 
除了 内 存 ， 处 理 器 是 NLP 











流水 线 的 另 一 个 瓶颈 。 即 使 拥有 无 限 的 内 存 ， 对 于 大 规模 语料库 ， 


我 们 学 到 的 一 些 更 复杂 的 算法 也 需要 处 理 几 天 的 时 间 。 








因此 ， 我 们 提出 的 算法 需要 最 小 化 所 需 的 资源 ， 包 括 易 失 性 存储 (RAM ) 和 处 理 (CPU 周 


期 ) 资源 。 


13.1 太 多 (数据 ) 未 





必 是 好 事 


随 着 我 们 向 流水 线 中 添加 更 多 数据 和 更 多 知识 ， 机 需 学 习 模 型 需要 越 来 越 多 的 内 存 、 硬 





盘 和 CPU 周期 进行 训练 。 更 糟糕 的 是 ,一 些 方 法 依赖 于 O(n”) 算 法 来 计算 语句 或 文档 的 向 量 























表示 之 间 的 距离 或 相似 度 。 对 于 这 些 算 法 ， 添 加 数据 时 处 理 速度 会 下 降 得 更 快 。 语 料 库 中 添 


加 的 每 个 句子 都 会 占用 更 多 的 











内 存 字 节 和 更 多 的 CPU 周期 来 处 理 ， 即 使 对 于 中 等 规模 的 语 料 
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库 ， 上 述 算法 也 是 不 现实 的 。 

有 两 种 通用 方法 可 以 帮助 大 家 避免 这 些 问 题 ， 从 而 将 NLP 流水 线 扩展 到 更 大 规模 的 数据 集 上 : 

轩 增强 可 扩展 性 一 一 改进 或 优化 算法 ; 

国 水 平 扩展 一 一 算法 并 行 化 以 同时 运行 多 个 计算 实例 。 

在 本 章 中 ， 我 们 将 学 习 上 述 两 种 方法 。 

使 算法 更 加 智能 几乎 一 直 是 加 速 处 理 流水 线 的 最 好 方法 , 所 以 我 们 先 介 绍 该 方法 。 我 们 将 并 
行 化 留 到 本 章 的 后 半 部 分 ， 以 帮助 我 们 更 快 地 运行 打磨 、 优 化 之 后 的 算法 。 

















13.2 优化 NLP 算法 


大 家 在 前 几 章 中 看 到 的 有 些 算法 具有 较 高 的 算法 复杂 度 ， 通 常 是 平方 阶 O(n ) 甚 至 更 高 ， 比 如 : 

加 根据 word2vec 向 量 相似 度 编撰 同义词 词典 ; 

国 根据 主题 向 量 对 网 页 进行 聚 类 ; 

加 根据 主题 向 量 对 期 刊 文章 或 其 他 文档 聚 类 ; 

国 在 问答 语料库 中 对 问题 聚 类 以 自动 生成 FAQ。 

所 有 这 些 NLP 挑战 都 属于 编 人 索引 的 搜索 或 上 最 近邻 (上 nearest neighbor，KNN ) 向 量 搜索 的 
范畴 。 我 们 在 接 下 来 的 几 节 将 讨论 该 扩展 性 挑战 : 算法 优化 。 我 们 将 介绍 一 种 特殊 的 算法 优化 方法 ， 
称 为 索引 化 (indexing )。 索引 化 可 以 帮助 解决 大 多 数 KNN 向 量 搜索 问题 。 在 本 章 的 后 半 部 分 ， 我们 
将 展示 如 何 使 用 图 形 处 理 单元 (GPU ) 的 数 千 个 CPU 核 来 实现 自然 语言 处 理 的 高 度 并 行 化 。 







































































13.2.1 索引 


大 家 可 能 每 天 都 在 使 用 自然 语言 索引 。 当 我 们 翻 到 教科 书 背面 想 查找 感 兴趣 的 主题 所 在 的 页 
面 时 ， 和 常常 使 用 自然 语言 文本 索引 (也 称 为 倒 排 索引 )。 这 里 的 页 面 就 是 文档 ， 而 词 来 自 每 篇 文档 
的 词 袋 (BOW ) 向 量词 库 。 每 次 在 Web 搜索 工具 中 输入 搜索 字符 串 时 ， 都 会 使 用 文本 索引 。 为 了 
扩展 NLP 应 用 ,需要 为 文档 语义 向 量 ( 如 LSA 文档 主题 向 量 或 word2vec 词 向 量 ) 建立 索引 。 

前 面 的 章节 中 提 到 了 传统 的 “ 倒 排 索引 ”, 用 于 根据 查询 中 的 词 在 文档 中 搜索 一 组 词 或 词 条 。 
但 是 我 们 还 没有 谈 到 如 何 用 于 相似 文本 的 近似 KNN 搜索 。 对 于 KNN 搜索 ， 我 们 希望 找到 相似 
的 字符 串 ， 即 使 它们 没有 包含 完全 一 样 的 词 。 编 辑 距离 是 诸如 fuzzywuzzy 和 ChatterBot 之 
类 的 软件 包 用 于 查找 相似 字符 串 的 一 种 距离 度量 方法 。 

数据 库 实现 了 多 种 文本 索引 , 从 而 可 以 快速 找到 文档 或 字符 串 。SQL 查询 允许 我 们 搜索 与 模 
式 匹配 的 文本 ， 例 如 SELECT book title frommanning book WHERE book title LIKE 
'Natural Languagegsin Action'。 该 查询 将 找到 所 有 以 “Natural Language” 开 头 的 Manning 
出 版 社 出 版 的 “in Action” 系 列 书籍 的 标题 。 此 外 有 许多 数据 库 的 3-gram (trgm ) 索引 可 帮助 
大 家 快速 (在 常数 时 间 内 ) 找到 相似 的 文本 ， 甚 至 不 需要 指定 模式 ， 而 只 需 构造 与 被 查找 的 文本 
相似 的 文本 查询 。 
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这 些 用 于 索引 文本 的 数据 库 技 术 非 常 适用 于 文本 文档 或 任何 类 型 的 字符 串 。 但 是 它们 在 诸如 
word2vec 向 量 或 稠密 文档 -主题 向 量 之 类 的 语义 向 量 上 效果 不 佳 。 这 是 因为 传统 的 数据 库 索 引 
依赖 的 是 它们 索引 的 对 象 ( 文档 ) 是 离散 的 、 稀 下 或 低 维 的 。 

加 字符 串 (字符 序列 ) 是 离散 的 : 字符 数量 有 限 。 

加 TF-IDF 向 量 是 稀 玻 的 : 在 任何 给 定 的 文档 中 ， 大 多 数 词 项 的 出 现 频率 为 0。 

量 BOW 向 量 是 离散 和 稀 玖 的 : 词 项 是 离散 的 ， 大 多 数 词 在 文档 中 的 出 现 频率 为 0。 

这 就 是 为 什么 网 页 搜索 、 文 档 搜索 或 地 理 位 置 搜索 可 以 在 毫秒 内 执行 的 原因 。 几 十 年 来 , 该 
方法 一 直 在 有 效 地 运行 (0 (1) )。 

是 什么 原因 导致 连续 向 量 如 文档 -主题 LSA 向 量 (第 4 章 ) 或 word2vec 向 量 (第 6 章 ) 
难以 索引 ? 毕 竞 ， 包含 经 纬度 和 高 度 的 地 理 信息 系统 ( GIS ) 向 量 看 上 去 和 上 述 向 量 类 似 ,但 是 
用 Google Maps 仍然 可 以 在 数 毫 秒 内 完成 GIS 搜索 。 实 际 上 这 里 面 非常 幸运 的 是 ，GIS 向 量 只 包 
含 3 个 连续 值 ， 因 此 可 以 基于 边界 框 构建 索引 ， 这 些 边界 框 将 GIS 对 象 聚 集 到 离散 的 分 组 中 。 

下 面 几 种 不 同 的 索引 数据 结构 可 以 解决 连续 向 量 的 索引 问题 。 

国 KD 树 : Elasticsearch 工具 在 即将 发 布 的 版 本 中 将 实现 多 达 8 个 维度 的 索引 。 

图 Rtree: PostgreSQL 在 > = 9.0 的 版 本 中 实现 了 这 一 功能 ， 最 多 可 文 持 200 个 维度 。 

国 Minhash 或 局 部 敏感 哈 希 : pip install lshash3。 

上 述 工作 在 一 定 的 维度 范围 内 可 用 ， 这 个 范围 大 约 是 12 维 以 内 。 如 果 大 家 自己 尝试 过 优化 
数据 库 索 引 或 局 部 敏感 哈 希 ,就 会 发 现 保持 常数 时 间 的 查找 速度 变 得 越 来 越 难 。 在 大 约 12 维 时 ， 
这 个 任务 就 基本 上 难以 完成 了 。 

那么 如 何 处 理 300 维 的 word2vec 向 量 或 100 多 维 的 LSA 语义 向 量 呢 ? 解决 方案 是 近似 算 
法 。 近 似 最 近邻 搜索 算法 不 会 试图 给 出 与 查询 向 量 最 相似 的 精确 文档 向 量 集 ， 而 只 是 试图 找到 一 
些 相对 较 好 的 匹配 结果 ， 而 且 它 们 的 匹配 结果 通常 非常 好 ， 在 前 10 名 左右 的 搜索 结果 中 几乎 不 
会 遗漏 任何 更 接近 的 匹配 。 

但 是 如 果 使 用 SVD 或 嵌入 的 方法 将 词 条 维度 (要 处 理 的 词汇 量规 模 ， 通 常 为 百 万 级 ) 降低 
到 200 或 300 个 主题 维度 , 那么 情况 就 大 不 相同 了 。 这 里 主要 有 3 点 不 同 。 第 一 点 不 同 是 问题 简 
化 了 : 降 维 后 搜索 的 维度 更 少 了 ( 想 想 数据 库 表 中 的 列 )。 另 外 两 点 不 同 具 有 挑战 性 : 降 维 后 的 
向 量 为 连续 值 稠密 向 量 。 




































































































































































13.2.2 ”高 级 索引 
语义 向 量 在 所 有 边界 框 中 检查 难以 查找 的 对 象 。 这 些 对 象 之 所 以 难以 查找 ， 是 因为 它们 : 


四 高 维 ; 

加 实数 值 ; 

四 稠密 。 

上 一 节 我 们 引入 了 两 个 新 的 难题 代替 了 维 数 灾难 。 向 量 现在 是 稠密 的 〈( 没 有 可 以 忽略 的 零 ) 
和 连续 的 ( 实数 值 )。 
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在 稠密 的 语义 向 量 中 ， 每 个 维度 都 是 一 个 有 意义 的 值 。 我 们 不 能 再 味 过 或 忽略 用 于 填充 
TF-IDF 表 或 BOW 表 的 零 值 ( 见 第 2 章 和 第 3 章 ) 即使 通过 加 1 平滑 ( 拉 普 拉 斯 平滑 ) 填充 TF-IDF 
向 量 中 的 空 值 , 得 到 的 稠密 表 中 也 仍然 会 有 一 些 不 变 的 值 , 可 以 让 我 们 把 稠密 表 当 作 稀 琉 和 矩阵 处 
理 。 但 是 现在 我 们 的 向 量 中 不 再 存在 零 值 或 高 频 值 。 每 个 主题 对 于 每 篇 文档 都 有 若干 与 其 对 应 的 
权重 。 当 然 这 不 是 一 个 无 法 解决 的 问题 。 降 维 不 止 可 以 弥补 上 述 稠密 问题 。 

这 些 稠密 向 量 中 的 值 是 实数 。 但 是 还 有 一 个 更 大 的 问题 。 语义 向 量 中 的 主题 权重 值 可 以 为 正 
或 负 , 并 不 限于 离散 字符 或 整数 值 。 与 每 个 主题 相关 联 的 若干 权重 现在 是 连续 的 实数 值 ( 浮 点 数 )。 
像 浮 点 数 这 样 的 非 离散 值 是 无 法 索引 的 。 它 们 不 再 只 是 出 现 或 者 不 出 现 , 它们 不 能 通过 独 热 编码 
向 量化 后 作为 特征 输入 神经 网 络 。 并 且 , 我 们 肯定 无 法 在 倒 排 索引 表 中 创建 一 个 条 目 ， 该 条 目 指 
向 是 否 出 现 该 特征 或 主题 的 所 有 文档 。 因 为 现在 在 所 有 文档 中 ， 主 题 都 有 不 同 程度 的 存在 。 

如 果 能 找到 有 效 的 搜索 或 KNN 算法 ， 就 可 以 解决 本 章 开 头 提 出 的 自然 语言 搜索 问题 。 一 种 
用 于 优化 此 类 问题 的 算法 的 方法 是 牺牲 确定 性 和 精确 性 , 来 换取 巨大 的 速度 提升 。 这 称 为 近似 最 
近邻 (approximate nearest neighbors，ANN ) 搜索 。 例 如 ，DuckDuckGo 搜索 不 会 试图 找 出 与 我 
们 搜索 的 语义 向 量 最 匹配 的 结果 。 相 反 ， 它 会 尝试 提供 10 个 左右 最 接近 的 近似 匹配 。 

幸运 的 是 ， 很 多 公司 都 开源 了 大 量 使 ANN 更 具 可 扩展 性 的 研究 软件 。 这 些 研究 小 组 通过 机 
互 欧 争 ,提供 了 最 简单 、 最 快速 的 ANN 搜索 软件 。 下 面 是 在 竞争 中 出 现 的 一 些 Python 包 ， 这 
包 已 经 通过 了 印度 科技 大 学 (ITU ) 对 于 NLP 问题 的 标准 基准 测试 : 

国 Spotify 的 Annoy” 

BallTree ( 使 用 nmslib )“ 
Brute Force using Basic Linear Algebra Subprograms library ( BLAS ) 和 


@ 





















































































































































ZU 





bt 








Brute Force using Non-Metric Space Library ( NMSlib ) 


国 
国 
轩 Dimension reductiOn and LookuPs on a Hypercube for efflcient Near Neighbor ( DolphinnPy ) “ 
@ Random Projection Tree Forest ( rpforest ) 

国 


Locality sensitive hashing ( datasketch ) - 





详 见 标 题 为 “GitHub - spotify/annoy: Approximate Nearest Neighbors in C++/Python optimized for memory 
usage and loading/saving to disk” 的 网 页 。 

EF 见 标题 为 “GitHub - nmslib/nmslib: Non-Metric Space Library (NMSLIB): An efficient similarity search 
ibrary and a toolkit for evaluation of k-NN methods for generic non-metric spaces” 的 网 页 。 

羊 见 标题 为 “1.6. Nearest Neighbors 一 scikit-learn 0.19.2 documentation” 的 网 页 。 
羊 见 标题 为 “GitHub - nmslib/nmslib: Non-Metric Space Library (NMSLIB): An efficient similarity search 
library and a toolkit for evaluation of k-NN methods for generic non-metric spaces” 的 网 页 。 


rn 


hn ni 





见 标题 为 “GitHub - ipsarros/DolphinnPy: High-dimensional approximate nearest neighbor in python” 的 


见 标题 为 “GitHub - lyst/rpforest: It is a forest of random projection trees” 的 网 页 。 
见 标题 为 “GitHub - ekzhu/datasketch: MinHash, LSH, LSH Forest Weighted MinHash, Hyper-LogLog, 
HyperLogLog++” 的 网 页 。 





QO @ OQ © Ob 


hn 








次 














异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 





13.2 ”优化 NLP 算法 357 


Multi-indexing hashing (MIH ) ” 

Fast Lookup of Cosine and Other Nearest Neighbors (FALCONN ) 。 
Fast Lookup of Approximate Nearest Neighbors (FLANN ) 
Hierarchical Navigable Small World (HNSW ) (在 nmslib 中 ) ” 


K-Dimensional Trees (kdtree ) 


© 
nearpy 


这 些 索引 方法 中 最 简单 的 方法 之 一 是 在 Spotify 提供 的 一 个 名 为 Annoy 的 软件 包 中 实现 的 。 


13.2.3 ”基于 Annoy 的 高 级 索引 


最 近 在 gensim 的 word2vec (KeyedVectors ) 更 新 中 增加 了 一 种 高 级 索引 方法 。 大 家 
现在 可 以 在 数 毫秒 内 检索 任何 向 量 的 近似 最 近邻 , 该 功能 开 箱 即 用 。 但 正如 我 们 在 本 章 开头 所 讨 
论 的 那样 ， 大 家 需要 对 任何 类 型 的 高 维 稠密 连续 向 量 集 使 用 索引 ， 而 不 仅仅 是 对 word2vec 向 
量 。 我 们 可 以 使 用 Annoy 对 word2vec 向 量 建立 索引 并 将 其 结果 与 gensim 的 KeyedVectors 
索引 进行 对 比 。 首 先 ， 需 要 像 第 6 章 中 那样 加 载 word2vec 向 量 ， 如 代码 清单 13-1 所 示 。 


代码 清单 13-1 ”加载 word2vec 向 量 


>>> from nlpia.loaders import get data 

>>> wv = get data('word2vec') 

1 OO 名 | 大 莫非 莫 提 大 大 提 划 提 提 间 提 提 厅 间 井 井 间 井 井 间 井 ## 井 ## 井 | 402111/402111 [01:02<00:00， 6455.57it/s] 
>>> len (wv.vocab), len(wv[lnext (iter (wv.vocab))]) 

(3000000, 300) 

>>> wv.vectors.shape 
(3000000, 300) 








如 果 大 家 还 没有 把 GoogleNews-vectors-negative300.bin.gz 下 载 到 
nlpia/src/nlpia/bigdata/ 目 录 ， 那 么 可 以 通过 get_data0) 来 下 载 


初始 化 一 个 空 的 Annoy 索引 ， 使 用 与 上 述 向 量 同 样 的 维 数 ， 如 代码 清单 13-2 所 示 。 


代码 清单 13-2 ”初始 化 300 维 Annoylndex 





>>> from annoy import AnnoyIndex 
>>> num words, num dimensions = wv.vectors.shape 


人 
ai 好 也 leN WA 
>>> index = AnnoyIndex (num dimensions) 原始 的 Google ee 


模型 包含 300 万 个 词 向 量 , 每 
个 词 向 量 有 300 维 











FE 见 标题 为 “GitHub - norouzi/mih: Fast exact nearest neighbor search in Hamming distance on binary codes 
with Multi-index hashing” 的 网 页 。 

fF 见 标 题 为 “FALCONN: PyPI” 的 网 页 。 

EF 见 标 题 为 “FLANN - Fast Library for Approximate Nearest Neighbors” 的 网 页 。 

EE 见 标题 为 “nmslib/hnsw.h at master: nmslib/nmslib” 的 网 页 。 

EF 见 KD-Tree 的 GitHub 代码 库 。 

EF 见 Pypi 的 NearPy 项 目 。 


hn 


hn 
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现在 ,可 以 将 word2vec 向 量 逐 个 添加 到 Annoy 索引 中 。 我 们 可 以 将 此 过 程 视 为 逐 页 读 取 
一 本 书 ， 并 将 每 个 词 对 应 的 页 码 放 在 书后 倒 排 索引 表 中 的 过 程 。 显 然 ，ANN 搜索 要 复杂 得 多 ， 
但 Annoy 将 其 进行 了 简化 。 具 体 做 法 参见 代码 清单 13-3。 


代码 清单 13-3 ”把 每 一 个 词 向 量 添加 到 Annoylndex 














妇 dm0 接 受 一 个 迭代 器 并 返回 一 个 迭代 吉 (如 enumerate0) )， .index2word 是 词汇 表 中 所 有 300 万 词 条 的 未 排序 
然后 在 循环 中 插入 代码 以 显示 一 个 进度 条 列表 ， 相 当 于 将 整数 索引 ( 0-2999999 ) 映射 到 词 





条 ('</s>' 映 射 为 'snowcapped_Caucasus' ) 
>>> from tqdm import tqdm 
>>> for i, word in enumerate (tqdm(wv.index2word)): 
a index.add item(i, wvlword]) 
22% | 非 非 # 提 提 提 #2 | 649297/3000000 [00:26<01:35, 24587.52it/s] 


AnnoyIndex 对 象 需要 执行 的 最 后 一 个 操作 是 读 取 整 个 索引 并 尝试 将 向 量 聚 类 成 可 以 在 树 
状 结构 中 索引 的 小 块 ， 如 代码 清单 13-4 所 示 。 





代码 清单 13-4 基于 15 棵 树 创建 欧 几 里 得 距离 索引 














这 只 是 一 个 经 验 法 则 , 如 果 这 个 索引 无 法 满足 你 所 关注 的 指标 
(内 存 占用 、 查 找 性 能 、 索 引 性 能 )， 或 者 对 于 你 的 应 用 来 说 精 
度 不 够 ， 那 么 你 可 能 需要 优化 这 个 超 参数 











>>> import numpy as np 














>>> num trees = int (np.log (num words) .roundq(0) ) 4 

>>> num trees 

lS 300 万 个 向 量 需 要 round(ln(3000000)) => 15 个 

>>> index.build (num trees) 索引 树 一 一 在 笔记 本 电脑 上 需要 处 理 几 分 钟 

>>> index.save('Word2vec euc index.ann') 、 
ee 将 索引 保存 到 本 地 文件 并 释放 
>>> w2id = dict(zip(range (len (wv.vocab)), wv.vocab)) 内 存 ， 但 可 能 需要 几 分 钟 





这 里 生成 了 15 个 树 状 结构 (大 约 是 300 万 的 自然 对 数 )， 因 为 我 们 需要 搜索 300 万 个 向 量 。 
如 果 你 有 更 多 的 向 量 或 者 希望 索引 更 快 、 更 精确 ,那么 可 以 增加 树 的 数量 , 请 注意 不 要 太 多 , 否 
则 需要 等 待 一 段 时 间 才能 完成 索引 过 程 。 

现在 ,我 们 可 以 试 着 在 索引 中 查找 词汇 表 中 的 词 ， 如 代码 清单 13-5 所 示 。 


代码 清单 13-5 ”基于 Annoylndex 查找 Harry_Potter 的 邻居 





A 全 
gensim 的 oo 字典 包 合 gensim 的 Vocab 对 象 可 以 告诉 大 家 2-gram 
Vocab 对 象 ， 而 不 是 原始 字符 串 或 索引 号 “Harry Potter” 在 Google News 语料库 中 被 














>>> wv.vocab['Harry Potter'] .index 提 及 的 次 数 …… 将 近 300 万 次 

9494 

>>> wv.vocab['Harry_ Potter'] .count < 

2990506 

>>> w2id = dict (zipl( 

5 wv.vocab, range (len (wv.vocab)))) 创建 一 种 类 似 于 wv.vocab 的 映射 关系 ， 
>>> w2id['Harry_Potter'] 将 词 条 上 映射 到 它们 的 索引 值 (整数 ) 
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9494 

>>> ids = index.get nns by item( 

i w2id['Harry_Potter'], 11) < 

>>> ids 

[94924;, 32643,°.39034;. 于 81137622 人 由 30087 LIOTTAL L13955;° .3503461] 

>>> [wv.vocab[i] for i in _] Annoy 首先 返回 的 是 目标 向 量 ， 所 以 如 果 
Pe 本 入 二 我 们 想 要 除 目标 向 量 之 外 的 10 个 最 近邻 


['Harry_Potter', 
'Narnia', 

'Sherlock Holmes', 
'Lemony_Snicket', 
'Spiderwick Chronicles', 
'Unfortunate Events', 
'Prince Caspian', 
'Eragon', 

'Sorcerer Apprentice', 
'RL_ Stine'] 


Annoy 列 出 的 10 个 最 近邻 大 多 是 与 Harry Potter 同样 类 型 的 书籍 ， 但 它们 并 不 是 书 名 、 电 
影 名 或 角色 名 的 精确 同义词 。 所 以 这 里 的 结果 肯定 是 近似 最 近邻 。 另 外 ， 请 记 住 ，Annoy 使 用 
的 算法 是 随机 的 ， 类 似 于 随机 森林 机 器 学 习 算 法 。 因此 ， 大 家 的 结果 可 能 与 这 里 看 到 的 结果 不 
同 。 如 果 需 要 同样 的 结果 , 那么 可 以 使 用 AnnoyIndex.set seed() 方 法 初始 化 随机 数 生 成 器 。 

看 起 来 Annoy 索引 漏 掉 了 很 多 更 近 的 邻居 , 提供 了 搜索 词 的 通用 近邻 而 不 是 最 近 的 10 个 近 
邻 。 那 么 gensim 怎么 样 呢 ? 如 果 使 用 gensim 内 置 的 KeyedVector 索引 来 检索 正确 的 最 近 
10 个 邻居 ， 会 出 现 什 么 情况 呢 ? 具体 做 法 参见 代码 清单 13-6。 








邻居 ， 就 必须 请 求 11 个 最 近邻 




















代码 清单 13-6 ”基于 gensim.KeyedVectors 索引 返回 的 10 个 Harry_Potter 最 近邻 


>>> [word for word, similarity in wv.most similar('Harry Potter', topn=10) ] 
['JK_ Rowling Harry Potter', 
'JK_Rowling', 
'boy_ wizard', 
'Deathly Hallows', 
"Half .Blood :Prinee.y 
'Rowling', 
'Actor Rupert Grint', 
'HARRY Potter', 
'wizard Harry_ Potter', 
"HARRY_POTTER' ] 


现在 ， 它 看 起 来 像 一 个 更 相关 的 前 10 名 同义词 表 。 这 里 列 出 了 正确 的 作者 、 标 题 的 其 他 拼 
写 形式 、 系 列 书 中 其 他 书籍 的 标题 ， 甚 至 哈 利 波 特 电影 中 的 演员 。 但 是 Annoy 的 结果 在 某 些 
情况 下 可 能 会 有 用 ， 例 如 当 对 一 个 词 的 类 型 或 一 般 意义 而 不 是 其 精确 同义词 更 感 兴趣 时 。 这 会 
非常 酶 。 

但 是 Annoy 索引 近似 值 确实 走 了 捷径 。 要 解决 该 问题 ， 请 使 用 余弦 距离 度量 〈 而 不 是 欧 几 里 





























QD Annoy 使 用 随机 投影 来 生成 局 部 敏感 哈 希 。 
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得 距离 ) 重建 索引 并 添加 更 多 树 。 这 应 该 能 够 提高 最 近邻 的 精确 性 ， 
具体 做 法 参见 代码 清单 13-7。 


并 使 其 结果 更 接近 gensim。 


代码 清单 13-7 创建 一 个 余弦 距离 索引 


>>> index_cos AnnoyIndexXx ( 


f=num dimensions, metric='angular') 
i, word in enumerate (wv.index2word): 
了 下 Ot 证 100000 : 

print('{}: {}'.format (i, word)) 
index cos.add item(i, wv[lword]) 


> oT 


( 


0: </s> 


100000: distinctiveness 


如 果 你 不 喜欢 ttdm， 也 可 以 用 
另 一 种 方式 来 跟踪 程序 进度 








4 


metric='angular' 表 示 使 用 angular 
(余弦 ) 距离 度量 来 计算 艇 和 哈 希 。 
大 家 可 以 选择 “angular”( 余弦 距 
离 ) “euclidean”( 欧 几 里 得 距离 )、 
“manhattan ”( 曼哈顿 距离 ) 或 
“hamming”( 海 明 距 离 ) 





2900000: BOARDED_UP 


现在 我 们 来 构建 两 倍数 量 的 树 状 结构 ， 并 设置 随机 种 子 ， 这 样 就 可 以 获得 与 代码 清单 13-8 
中 显示 的 一 样 的 结果 。 


代码 清单 13-8 创建 一 个 余弦 距离 索引 
>>> index_cos.build(30) | 


>>> index cos.save('Word2vec cos index.ann') 
运行 , 但 是 一 旦 完成 , 我 们 能 够 期 望 结果 更 接近 于 gensim 


True 
这 个 索引 需要 花费 两 倍 的 时 间 来 

产生 的 结果 。 现 在 我 们 看 看 在 更 精确 的 索引 上 ， 最 近邻 和 “Harry Potter” 这 个 词 项 的 近似 程度 ， 

如 代码 清单 13-9 所 示 。 








30 是 int(np.log(num vectors).round(0)) 


的 计算 结果 ， 是 之 前 的 两 倍 


下 ， 











代码 清单 13-9 在 余弦 距离 空间 里 Harry_Potter 的 邻居 





>>> ids cos = index cos.get nns by item(w2idl['Harry Potter'], 10) 
> dB COS 
[94947; .37681; 40544; M41526; :14273;, 165465; .32643; -420722; ‘147L51; 28829] 
>>> [wv.index2word[i] for i in ids cos] SA a 
大 家 可 能 无 法 复 现 同 样 的 结果 。LSH 





['Harry_Potter', 

'JK_ Rowling', 
'Deathly Hallows', 
'Half Blood Prince', 
TWiLight 
'Twilight saga', 














的 随机 投影 是 随机 的 。 如 果 需 要 复 现 
结果 , 请 使 用 AnnoyIndex.set _seed0 
方法 








'Narnia', 

'Potter mania', 
'Hermione Granger', 
'Da Vinci Code'] 


结果 看 起 来 好 了 一 点 ， 至 少 列 出 了 正确 的 作者 。 我 们 可 以 将 两 次 Annoy 搜索 的 结果 与 gensim 
的 正确 答案 进行 比较 ， 如 代码 清单 13-10 所 示 。 
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代码 清单 13-10 ”排名 前 10 的 搜索 结果 精确 率 


我 们 把 如 何 将 这 些 排名 前 10 的 列表 合并 到 
一 个 DataFrame 中 的 操作 留 给 读者 解决 
>>> pd.DataFrame (annoy topl0, columns=['annoy 15trees'yv 














Pa. 'annoy_30trees']) < 
gensim annoy_l5trees annoy_30trees 
JK_ Rowling Harry_ Potter Harry_Potter Harry_Potter 
JK_Rowling Narnia JK_ Rowling 
boy_ wizard Sherlock Holmes Deathly Hallows 
Deathly Hallows Lemony_Snicket Half Blood Prince 
Half Blood Prince Spiderwick Chronicles Twilight 
Rowling Unfortunate Events Twilight saga 
Actor Rupert Grint Prince Caspian Narnia 
HARRY Potter Eragon Potter mania 
wizard Harry_ Potter Sorcerer Apprentice Hermione Granger 
HARRY_POTTER RL Stine Da Vinci Code 


要 去 除 宛 余 的 “Harry_Potter” 这 个 同义词 ， 我 们 应 该 列 出 前 11 名 ， 并 跳 过 第 一 名 。 不 过 我 
们 仍 可 以 看 出 这 里 的 改进 。 当 我 们 增加 Annoy 索引 树 的 数量 时 ,会 降低 不 太 相 关 的 词 项 (如 
“Narnia”) 的 排名 ,并 插入 更 多 相关 的 真正 的 最 近邻 词 项 ( 如 “JK_Rowling” 和 “Deathly_Hallows”)。 

此 外 ，Annoy 索引 得 到 近似 答案 明显 快 于 提供 精确 结果 的 gensim 索引 。 并 且 可 以 将 此 
Annoy 索引 用 于 需要 搜索 的 任何 高 维 、 连续、 稠密 的 向 量 , 例如 LSA 文档 -主题 向 量 或 doc2vec 
文档 藤 入 (向量 )。 


13.2.4 ”究竟 为 什么 要 使 用 近似 索引 


那些 有 算法 效率 分 析 经 验 的 人 可 能 会 对 自己 说 O(n ) 算 法 在 理论 上 是 有 效 的 。 毕 竟 ， 它 们 比 
上 数 算法 更 有 效 ， 甚 至 比 多 项 式 算法 更 有 效 。 当 然 ， 它 们 更 不 是 求解 NP 困难 问题 ， 它 们 不 是 那 
种 需要 花费 宇宙 一 生 的 时 间 来 计算 的 不 可 能 的 东西 。 

因为 这 些 O(n”) 计 算 仅 发 生 在 NLP 流水 线 中 的 机 器 学 习 模 型 训练 阶段 ， 所 以 它们 可 以 预先 
计算 。 聊 天 机 器 人 不 需要 在 每 次 回复 新 语句 时 都 执行 O(n”) 操 作 。n? 操作 本 质 上 是 可 并 行 化 的 。 
大 家 几乎 总 是 可 以 独立 于 其 他 n 个 序列 来 运行 n 个 计算 序列 中 的 一 个 。 所 以 大 家 可 以 在 这 个 问 
题 上 投入 更 多 的 内 存 和 处 理 器 , 在 每 晚 或 每 个 周末 运行 一 些 批 处 理 训练 过 程 ， 以 保持 机 器 人 的 
大 脑 与 时 俱 进 。 更 好 的 是 ， 大 家 可 以 分 块 进行 好 计算 并 逐个 运行 ， 随 着 数据 的 增加 ，7 也 会 
增加 。 

例如 , 假设 我 们 一 开始 就 已 经 在 一 些小 型 数据 集 上 训练 了 一 个 聊天 机 器 人 , 然后 对 外 界 开放 
使 用 。 想 象 一 下 , 是 其 持久 性 存储 ( 数据库 ) 中 语句 ( statement ) 和 回复 (response ) 的 数量 。 
每 当 有 人 使 用 新 语句 对 聊天 机 器 人 说 话 时 , 机 器 人 可 能 要 在 其 数据 库 中 搜索 最 相似 的 语句 ,以 便 





















































@ 这 是 大 家 在 复杂 度 为 zr 文档 匹配 问题 上 真实 使 用 的 架构 。 
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可 以 复 用 之 前 适用 该 语句 的 任何 回复 。 因 此 , 计算 n 个 已 有 语句 和 新 语句 之 间 的 某 种 相似 性 得 分 
(度量 )， 并 将 新 的 相似 性 得 分 作为 新 的 行 和 列 存储 在 大 家 的 (n+1) 相似 度 矩 阵 中 。 或 者 只 需 在 图 
数据 结构 中 再 添加 n 条 连接 或 关系 ,来 存储 语句 之 间 的 所 有 相似 性 得 分 。 现 在 , 我 们 可 以 对 这 些 
连接 〈 或 连接 矩阵 中 的 单元 格 ) 进行 查询 ， 以 找到 最 小 距离 值 。 对 于 最 简单 的 方法 ， 只 需要 检查 
刚刚 计算 的 n 个 得 分 。 但 是 如 果 想 要 更 加 周全 ,可 以 查看 其 他 行 和 列 ( 更 深入 地 遍历 图 )， 例 如 ， 
找到 对 针对 相似 语句 的 一 些 回复 ， 并 检查 其 友好 程度 、 信 息 内 容 、 情 感 、 符 合 语法 性 、 结 构 完 整 
性 、 简 洁 性 和 风格 。 无 论 哪 种 方式 ,大 家 都 有 一 个 用 于 计算 最 佳 回复 的 O(n) 算 法 ,即使 对 完整 的 
训练 其 总 的 复杂 度 为 O(n )。 

但 是 如 果 O(n) 还 不 够 快 呢 ?” 如 果 大 家 正在 构建 一 个 非常 大 的 大 脑 ， 例 如 谷歌 ,其 n 超过 60 
万 亿 ? 即 使 大 家 的 n 不 是 那么 大 ， 如 果 个 别 计算 相当 复杂 , 或 者 想 在 合理 的 时 间 ( 数 十 毫秒 ) 内 
回复 ， 那 么 也 需要 使 用 一 个 索引 。 
























































13.2.5 ”索引 变通 方法 : 离散 化 


所 以 我 们 前 面 说 到 浮 点 数 (实数 值 ) 不 可 能 直接 索引 。 有 什么 方法 可 以 解决 我 们 的 问题 , 或 
者 说 不 用 直接 索引 ? 那些 有 传感器 数据 和 模 数 转换 器 处 理 经 验 的 人 可 能 会 想到 , 连续 的 数值 可 以 
很 容易 地 数字 化 或 离散 化 。 而 且 浮 点 数 并 不 是 真正 连续 的 。 毕 竟 ,， 它们 是 一 串 二 进 制 数 。 但 是 如 
果 和 希望 它们 适用 大 家 的 索引 概念 并 保持 低 维 度 ， 就 需要 将 它们 真正 离散 化 。 需 要 将 它们 “封装 ” 
成 可 控 的 东西 。 将 连续 变量 转换 为 可 控 数量 的 分 类 值 或 序数 值 的 最 简单 方法 就 像 代码 清单 13-11 
中 展示 的 代码 。 

















代码 清单 13-11 针对 低 维 向 量 的 MinMaxScaler 





>>> from sklearn.preprocessing import MinMaxScaler 





>>> real values = [-1.2, 3.4, 5.6,; -7.8, 9.0] a Co 
>>> 将 我 们 的 浮 点 数 限 制 在 
>>> scaler = MinMaxScaler () 0.0 到 1.0 之 间 


>>> scaler.fit (real values) 


I Os in scaler.transform(real values)] 了 < 一 按照 比例 ,离散 化 到 
0 到 100 之 间 

该 方法 适用 于 低 维 空间 。 这 基本 上 是 一 些 二 维 GIS 索引 用 来 将 经 度 / 纬 度 值 离散 化 为 边界 框 
网 格 中 的 内 容 。 对 于 每 个 网 格 点 ,二 维 空间 中 的 点 存在 也 可 能 不 存在 。 随 着 维度 的 增长 , 需要 使 
用 比 简单 二 维 网 格 更 复杂 、 更 高 效 的 索引 。 

在 深入 研究 300 维 自然 语 言语 义 向 量 之 前 , 我 们 通过 空间 维度 来 思考 三 维 空间 。 例如 , 通过 
将 高 度 添加 到 某 个 包含 纬度 和 经 度 的 二 维 GPS 数据 库 , 想象 一 下 从 二 维 增长 到 三 维 引 起 的 变化 。 
现在 假设 我 们 将 地 球 划分 为 三 维 立方 体 而 不 是 原先 使 用 的 二 维 网 格 。 大 部 分 立方 体 中 没有 太 多 我 
们 有 兴趣 查找 的 东西 , 而 且 进行 邻近 搜索 ( 例如 , 查找 某 个 三 维 球体 或 三 维 立 方 体内 的 所 有 对 象 ) 
变 得 更 加 困难 。 我 们 需要 搜索 的 网 格 点 数量 以 产 的 数量 级 增长 ， 其 中 n 是 搜索 区 域 的 直径 。 可 
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以 看 到 ， 当 维度 从 3 增长 到 4 或 5 时 ， 大 家 真 的 需要 对 搜索 方法 深入 了 解 。 
13.3 常数 级 内 存 算法 


处 理 大 型 语料库 和 TF-IDF 矩阵 的 主要 挑战 之 一 是 将 其 全 部 存放 在 内 存 中 。 我 们 在 本 书 中 使 
用 gensim 的 原因 是 它们 的 算法 尝试 保持 常数 级 的 内 存 占 用 。 



































13.3.1 gensim 


如 果 文 档 数量 超出 内 存 所 能 容纳 的 容量 怎么 办 ? 随 着 语料库 中 文档 的 大 小 和 种 类 的 增长 ， 即 
使 是 从 云 服务 中 租用 最 大 的 机 器 ,最终 也 可 能 会 超出 内 存 容量 。 但 是 无 须 担 心 ， 数 学 家 就 在 这 里 。 

像 LSA 这 样 的 算法 ， 其 背后 的 数学 原理 已 经 发 展 了 几 十 年 。 数 学 家 和 计算 机 科学 家 有 很 多 
时 间 去 研究 并 让 它 在 外 存 中 运行 ， 这 意味 着 运行 算法 所 需 的 对 象 并 不 都 需要 一 次 存放 在 核心 存储 
器 (内存 ) 中 。 这 就 意味 着 可 以 不 再 受到 机 器 上 内 存 的 限制 。 

即使 不 需要 在 多 台 机 器 上 并 行 运行 大 家 的 训练 流水 线 , 大 型 数据 集 也 需要 常数 级 内 存 算法 的 
支持 。gensim 的 LsiModel 是 LSA 奇异 值 分 解 算法 的 一 种 外 存 实 现 。” 

即使 对 于 较 小 的 数据 集 ，gensimLSIModel 的 优势 也 在 于 它 不 需要 增加 内 存 用 量 来 处 理 不 
断 增 长 的 词汇 表 或 文档 集 。 因 此 , 不 必 担心 它 会 在 语料库 处 理 过 程 中 被 交换 到 磁盘 分 区 ,或 者 在 
内 存 耗 尽 时 停止 运行 。 我 们 甚至 可 以 同时 使 用 笔记 本 电脑 处 理 其 他 任务 , 而 gensim 模型 则 在 后 
台 进 行 训练 。 

gensim 使 用 所 谓 的 批 训练 来 实现 这 种 内 存 效率 。 它 在 文档 上 逐 批 训 练 LSA 模型 ( gensim. 
models .LsiModel ) 并 增 量 合 并 逐 批 训练 的 结果 。 所 有 gensim 的 模型 都 设计 为 常数 级 内 存 ， 
这 使 它们 避免 将 数据 交换 到 磁盘 分 区 ， 并 有 效 地 使 用 宝贵 的 CPU 缓存 ， 从 而 可 以 在 大 型 数据 集 
上 运行 得 更 快 。 

提示 除了 常数 级 内 存 开销 ，gensim 模型 的 训练 是 可 并 行 化 的 ， 至 少 对 这 些 流 水 线 中 的 许多 长 时 

间 运 行 的 阶段 而 言 可 以 并 行 化 。 

所 以 像 gensim 这 样 的 软件 包 值得 出 现在 大 家 的 工具 箱 中 。 它 们 可 以 加 速 大 家 在 小 数据 上 的 
实验 ( 如 本 书 中 的 实验 )， 并 为 将 来 在 大 数据 上 的 多 维 空间 处 理 提供 支持 。 











































































































13.3.2 图 计算 





Hadoop 、TensorFlow 、Caffe 、Theano 、Torch 和 Spark 一 开始 就 设计 为 常数 级 内 存 。 如 果 可 
以 将 机 器 学 习 流 水 线 表示 为 一 个 Map-Reduce 问题 或 一 张 通用 计算 图 ， 则 可 以 利用 这 些 框 架 来 避 





Q@ 详 见 标题 为 “gensim:models.lsimodel - Latent Semantic Indexing” 的 网 页 。 
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免 内 存 不 足 的 问题 。 这 些 框架 会 自动 遍历 计算 图 来 分 配 资 源 并 优化 吞 叶 量 。 

Peter Goldsborough 使 用 这 些 框架 实现 了 知 干 基准 模型 和 数据 集 来 对 比 它们 的 性 能 。 尽 
Torch 早 在 2002 年 就 出 现 了 ， 但 它 在 大 多 数 基 准 测试 中 表现 都 不 错 ， 在 CPU 上 的 表现 优 于 其 他 
所 有 框架 ， 有 时 黄 至 在 GPU 上 也 是 如 此 。 在 很 多 情况 下 ， 它 比 最 接近 的 竞争 对 手 快 10 倍 。 

Torch (及 其 PyTorch Python API ) 已 集成 到 许多 集群 计算 框架 中 ， 如 RocketML。 虽 然 我 们 
没有 使 用 PyTorch 作为 本 书 中 的 示例 (为 了 避免 给 大 家 提供 过 多 的 选择 )， 但 是 如 果 内 存 或 生 吐 
量 是 NLP 流水 线 的 瓶颈 ， 那 么 大 家 可 能 需要 了 解 它 。 

我 们 使 用 RocketML 成 功 实现 了 NLP 流水 线 的 并 行 化 。 他 们 付出 了 研究 和 开发 的 时 间 来 帮 
助 Aira 和 TotalGood 公司 实现 我 们 的 NLP 流水 线 的 并 行 化 ， 以 帮助 那些 视 障 人 士 : 

加 从 视频 中 提取 图 像 ; 

量 ”对 预 训练 的 Caffe 、PyTorch 、Theano 和 TensorFlow (Keras ) 模型 进行 推理 和 骨 入 ; 

四 对 GB 级 别 语料库 的 大 型 TF-IDF 矩阵 进行 奇异 值 分 解 (SVD ) "。 

RocketML 流水 线 可 以 很 好 地 进行 扩展 ， 这 种 扩展 一 般 是 线性 的 ， 具 体 取决 于 算法 。 因此， 
如 果 大 家 将 集群 中 的 计算 机 加 倍 , 那么 模型 训练 的 速度 能 够 提升 两 倍 。 但 实际 情况 比 看 起 来 的 困 
难 。 更 通用 的 计算 图 并 行 框架 (如 PySpark 和 TensorFlow ) 很 少 声 称 这 一 点 。 
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13.4 并 行 化 NLP 计算 


NLP 的 高 性 能 计算 有 两 种 流行 的 方法 ， 一 种 是 将 GPU 添加 到 服务 器 〈 在 某 些 情况 下 甚至 是 
笔记 本 电脑 ) 中 ， 男 一 种 是 将 多 个 服务 右 的 CPU 连接 到 一 起 。 





13.4.1 在 GPU 上 训练 NLP 模型 


GPU 已 成 为 开发 实际 NLP 应 用 程序 的 重要 日 有 时 是 必需 的 工具 。GPU 于 2007 年 首次 推出 ,被 
设计 用 于 并 行 化 大 量 计 算 任 务 和 访问 大 量 内 存 。 这 与 CPU 的 设计 形成 了 鲜明 对 比 ，CPU 是 每 台 计算 
机 的 核心 。 它 们 旨 在 高 速 顺序 处 理 任 务 ， 并 且 可 以 高 速 访 问 有 限 的 处 理 内 存 (如 图 13-1 所 示 )。 

事实 证 明 ， 训 练 深度 学 习 模 型 涉及 多 种 可 以 并 行 化 的 操作 ， 例 如 和 矩阵 的 乘法 。 类 似 于 GPU 
最 初 目标 市 场 的 图 形 动 画 处 理 ， 深 度 学 习 模 型 的 训练 通过 和 矩阵 乘法 并 行 化 大 大 加 速 。 

13-2 展示 了 输入 向 量 与 权重 矩阵 的 乘法 ， 这 是 在 神经 网 络 训练 的 前 向 传播 过 程 中 频繁 出 
现 的 操作 。 与 CPU 相 比 ，GPU 的 每 个 核 的 处 理 速度 较 慢 ,但 每 个 核 都 可 以 计算 结果 向 量 中 的 一 
个 分 量 。 如 果 在 CPU 上 执行 训练 ， 在 没有 使 用 特定 线性 代数 库 的 情况 下 ， 每 行 乘法 将 按 顺序 执 
行 。 它 需要 n 个 (矩阵 行 数 ) 时 刻 才 能 完成 乘法 。 如 果 在 GPU 上 执行 相同 的 任务 ， 则 乘法 将 被 














































































































@) 在 2008 年 SAIS 会 议 上 ，Santi Adavani 解释 了 针对 SVD 的 优化 ， 可 以 使 其 在 RocketML 的 高 性 能 计算 
平台 上 运行 更 快 、 可 扩展 性 更 好 。 
@) Santi Adavani 和 Vinay Rao 贡献 了 Real-Time Video Description 项 目 。 
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并 行 化 ， 并 且 每 行 乘法 可 以 在 GPU 的 各 个 核 中 同时 执行 。 










































































CPU GPU 
图 13-1 CPU 和 GPU 的 对 比 
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图 13-2 ”和 矩阵 乘法 ， 其 中 每 一 行 乘法 可 以 在 GPU 上 并 行 执行 











是 否 需要 在 GPU 上 运行 训练 好 的 模型 ? 即使 使 用 GPU 训练 模型 ， 也 不 需要 在 生产 环境 中 使 用 
GPU 进行 模型 推理 。 实 际 上 ， 除 非 需要 在 预 训练 模型 上 前 向 传播 (神经 网 络 的 推理 或 激活 ) 数 百 万 
个 样本 或 有 高 吞吐 量 (实时 流 ) 的 需求 ， 否 则 可 能 只 应 该 在 训练 新 的 模型 时 使 用 GPU。 在 神经 网 络 
上 反 向 传播 相 比 前 向 激活 ( 推理 ) 在 计算 成 本 上 要 高 晶 得 多 。 
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GPU 会 给 流水 线 增 加 复杂 性 和 成 本 。 但 是 ， 如 果 可 以 在 模型 缩短 和 欠 代 周期 ， 那 么 这 种 前 期 
成 本 可 以 很 快 收回 。 如 果 可 以 在 十 分 之 一 的 时 间 内 使 用 新 的 超 参数 重新 训练 模型 ， 则 可 以 尝试 





10 倍数 量 的 不 同方 法 来 取得 更 高 的 精确 率 。 





训练 完成 后 ，Keras 或 其 他 深度 学 习 框 架 提 供 了 导出 模型 权重 和 结构 的 方法 。 然 后 ， 大 家 就 

















可 以 在 几乎 任何 硬件 上 加 载 权 重 和 模型 设置 ， 来 计算 前 向 传递 或 推理 传递 ) 模型 预测 的 结 
即使 在 智能 手机 "或 浏览 器 "中 也 是 如 此 。 


13.4.2 租 与 买 








使 用 GPU 可 以 加 速 我 们 的 模型 开发 ， 并 允许 我 们 更 快 地 迭代 模型 开发 。GPU 很 有 用 ,但 是 


我 们 应 该 购买 吗 ? 








Q@ 详 见 苹果 公司 的 Core ML 文档 或 者 谷歌 公司 的 TensorFlow Lite 文档 。 
@) 详 见 标题 为 “Keras.js - Run Keras models in the browser” 的 网 页 。 
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— 





大 多 数 情 况 下 答案 是 否定 的 。GPU 的 性 能 正在 迅速 提高 ， 购 买 的 显卡 可 能 很 快 就 会 过 时 。 除 非 大 
家 计划 全 天 候 使 用 GPU ,否则 通过 Amazon Web Services 或 Google Cloud 等 服务 租用 GPU 可 能 会 更 好 。 
GPU 服务 允许 在 模型 训练 运行 期 间 切换 实例 数量 。 这 样 ， 我 们 就 可 以 根据 需要 扩展 或 压缩 GPU 数量 。 
这 些 服务 商 还 经 常 提供 已 经 完全 配置 好 的 安装 实例 , 这 可 以 节省 我 们 的 时 间 ， 让 我 们 专注 于 模型 开发 。 

我 们 搭建 并 维护 了 自己 的 GPU 服务 器 ， 用 于 加 速 本 书 中 用 到 的 一 些 模型 训练 ， 但 大 家 应 该 
像 我 们 说 的 那样 去 租用 服务 器 ， 而 不 要 像 我 们 所 做 的 一 样 购买 GPU。 选 择 相互 兼容 的 组 件 并 最 
大 限度 地 减 小 数据 吞吐 量 瓶 颈 是 一 项 挑战 。 我 们 借鉴 了 其 他 人 介绍 的 成 功 架 构 , 并 在 最 近 比 特 币 
激增 导致 高 性 能 计算 (HPC ) 组 件 价 格 飙 升 之 前 购买 了 内 存 和 GPU。 保 持 所 有 开发 库 处 于 最 新 
状态 并 协调 本 书 作者 之 间 的 使 用 和 配置 是 一 项 挑战 。 它 既 有 趣 又 有 教育 意义 , 但 它 并 不 能 有 效 利 
用 我 们 的 时 间 和 人 金钱。 

租用 GPU 实例 的 灵活 性 也 有 一 个 缺点 : 大 家 需要 密切 关注 成 本 。 完 成 训练 并 不 会 自动 停止 
实例 。 为 了 停止 计 费 器 (产生 持续 成 本 ), 需要 在 每 次 训练 运行 的 间隙 关闭 GPU 实例 。 更 多 详细 
信息 ， 参 见 E.1.1 节 。 












































13.4.3 GPU 租赁 选择 


多 家 公司 都 提供 GPU 租赁 选择 , 从 众所周知 的 平台 即 服务 公司 开始 , 如 微软 、AWS( Amazon 
Web Services ) 和 谷歌 。 其 他 初创 公司 ， 如 Paperspace 或 FloydHub ， 正 在 通过 推出 有 趣 的 产品 进 
人 该 行业 ， 这 些 产 品 可 以 帮助 大 家 快速 启动 深度 学 习 项 目 。 

表 13-1 比较 了 “平台 即 服务 ”( PaaS ) 提供 商 的 不 同 GPU 选择 。 服 务 范围 从 具有 最 小 配置 的 裸 
GPU 机 需 到 具有 拖 放 客户 端的 完全 配置 好 的 机 器 。 由 于 服务 定价 的 区 域 性 差异 ， 我 们 无 法 根据 价格 比 
较 提 供 商 。 服 务 价格 从 每 小 时 每 实例 0.65 美元 到 几 美 元 不 等 , 具体 取决 于 服务 器 的 位 置 、 配 置 和 设置 。 


表 13-1 GPU 平台 即 服务 的 选择 对 比 













































































公司 选择 的 原因 GPU 选择 上 手 容 易 程度 | 灵活 性 
A 多 种 GPU 选择 , 实时 收费 , 可 在 | NVIDIA GRID K520、Tesla 
世界 各 地 的 多 个 数据 中 心 使 用 | M60 、Tesla K80、Tesla V100 四 
集成 Google Cloud Kubemetes 、| NVIDIA Tesla K80, Tesla 
Google Cloud 中 高 
DialogFlow、 Jupyter P100 
i 如 : | Azure 的 其 他 
Microsoft 丸 有 果 六 家 使 1 zure 的 其 他 服 NVIDIA Tesla K80 中 高 
Azure 务 ， 这 是 个 好 选择 
FloydHub 。 | 支持 命令 行 接口 打包 代码 rt 中 
Paperspace 虚拟 服务 器 和 托管 的 on et ee J 易 中 
persp' Jupyter 笔记 本 ， 支 持 GPU 0 、Tesla 、Tesla 























在 AWS 上 设置 我 们 自己 的 GPU 附录 巨 中 展示 了 开始 使 用 自己 的 GPU 实例 前 的 必要 步骤 的 总 结 。 
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13.4.4” 张 量 处 理 单元 TPU 


大 家 可 能 听 说 过 张 量 处 理 单元 (TPU ), 这 是 一 个 高 度 优化 的 深度 学 习 计 算 单元 。 它 们 在 计算 
TensorFlow 模型 的 反 向 传播 时 特别 高 效 。 TPU 针对 任意 维 数 的 张 量 乘 法 进行 了 优化 , 并 使 用 专用 
的 FPGA 和 ASIC 芯片 对 数据 进行 预 处 理 和 传输 。GPU 针对 图 形 处 理 进 行 了 优化 ， 图 形 处 理 主要 
集中 在 三 维 游 戏 世 界 中 泻 染 和 移动 所 需 的 二 维 矩 阵 乘法 。 

谷歌 公司 声称 TPU 在 计算 深度 学 习 模 型 方面 的 效率 是 同等 GPU 的 10 倍 。 在 撰写 本 书 时 ， 
谷歌 刚刚 将 在 2015 年 设计 并 发 明 的 TPU 对 外 发 布 ， 目 前 处 于 开放 测试 阶段 (未 提供 服务 级 别 协 
议 )。 同时 , 研究 人 员 可 以 申请 成 为 TensorFlow Research Cloud 的 一 员 ， 从 而 在 TPU 上 训练 他 们 
的 模型 。 





























13.5 减少 模型 训练 期 间 的 内 存 占用 


当 在 GPU 上 基于 大 型 语料库 训练 NLP 模型 时 , 最 终 可 能 会 在 训练 期 间 遇 到 MemoryError 错 
误 消息 ， 如 代码 清单 13-12 所 示 。 


代码 清单 13-12 如 果 训练 数据 超过 了 GPU 的 内 存 ， 就 会 出 现 错误 消息 





Epoch 1/10 
Exception in thread Thread-27: 
Traceback (most recent call last): 
File "/usr/lib/python2.7/threading.py", line 801, in _bootstrap inner 
self.run() 
File "/usr/lib/python2.7/threading.py", line 754, in run 
self. target(*self. args, **self. kwargs) 
File "/usr/local/lib/python2.7/dist-packages/keras/engine/training.py", 
line 606, in data generator task 
generator output = next (self. generator) 
File "/home/ubuntu/django/project/model/load data.py", line 54, 
in load training set 
rv = np.array (rv) 








MemoryError 


为 了 实现 GPU 的 高 性 能 ， 除 CPU 内 存 之 外 ， 这 些 计算 单元 还 使 用 自己 内 部 的 GPU 内 存 。 
GPU 卡 的 内 存 大 小 通常 限制 在 几 千 兆 字 节 ， 在 大 多 数 情 况 下 ， 没 有 CPU 能 访问 的 内 存 那么 大 。 
当 在 CPU 上 训练 模型 时 ， 训 练 数据 可 能 会 加 载 到 计算 机 内 存 的 一 个 大 型 表 或 张 量 序列 中 。 然 而 
由 于 GPU 内 存 的 限制 ， 上 述 做 法 在 GPU 上 是 不 可 行 的 ( 如 图 13-3 所 示 )。 

一 个 有 效 的 解决 方法 是 使 用 Python 的 生成 器 概念 一 一 一 个 返回 迭代 器 对 象 的 函数 。 我 们 可 
以 将 迭代 器 对 象 传递 给 模型 训练 方法 ,并 在 每 次 训练 迭代 时 “取出 ”一 个 或 多 个 训练 条 目 ， 这样 
它 永 远 不 需要 在 内 存 中 存放 整个 训练 集 。 这 种 减少 内 存 占 用 的 有 效 方法 有 一 些 需 要 说 明 的 地 方 : 











@ 详 见 标题 为 “TensorFlow Research Cloud” 的 网 页 。 
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国生 成 器 一 次 只 提供 一 个 序列 元 素 ， 因 此 在 到 达 序列 末尾 之 前 ， 大 家 并 不 知道 它 包含 多 少 个 
元 素 ; 
国生 成 器 只 能 运行 一 次 。 它 们 是 一 次 性 的 ， 不 可 回收 利用 。 
由 于 上 述 这 两 个 难点 ， 利 用 数据 进行 多 次 训练 会 更 加 烦琐 。 但 是 Keras 正在 采取 一 些 方法 来 
处 理 所 有 这 些 烦 琐 的 “ 记 账 ”工作 (如 图 13-4 所 示 )。 


训练 数据 存储 模型 训练 训练 数据 存储 生成 器 函数 模型 训练 
一 一 大 量 的 内 存 需 求 一 一 > 少量 的 内 存 需求 


图 13-3 不 使 用 生成 器 函数 图 13-4 ”使 用 生成 器 函数 加 载 训练 数据 
加 载 训练 数据 


生成 器 函数 处 理 训练 数据 存储 的 加 载 并 将 训练 "数据 块 " 返回 给 训练 方法 。 在 代码 清单 13-13 
中 ,训练 数据 存储 是 一 个 csv 文件 ， 其 输入 数据 和 预期 输出 数据 之 间 由 “|” 分 隔 符 分 开 。 数 据 块 
限制 为 批 处 理 大 小 , 并 且 每 次 只 需 在 内 存 中 存储 一 个 批 处 理 集合 。 这样, 可 以 大 大 减少 模型 训练 
集 的 内 存 占用 。 




















代码 清单 13-13 ”用 于 改进 内 存 效率 的 生成 器 





































































































>>> import numpy as np 在 函数 设置 中 ， 可 以 
>>> 动态 设置 批 处 理 大 小 这 个 无 限 循环 持续 提供 训练 
>>> def training_set_generator (data store, 批 次 。 当 一 个 训练 周期 结 习 
四 四 batch size=32) : 时 ，Keras 不 再 请 求 更 多 的 训 
X Y = ’ 乡 
while True : 练 样 丰 
with open(dqata_store) as f: Ne 、 、 
本 二 最 for i, line in enumerate (f): 这 将 打 训练 数据 存储 并 
— >... if i % batch size == 0 and xX and Y: 创建 文件 句柄 f 
yield np.array (X), np.array(Y) 
xX, Y= [], [{] 对 训练 数据 存储 的 内 容 进 行 逐 
4 < 一 行 遍历 ， 直 到 将 全 部 数据 都 用 
X.append (x) 于 训练 样本 ,然后 再 从 训练 集 
EE Y.append (y) 的 起 始 处 开始 
23> 
>>> data store = '/path/to/your/data.csyv' 
>>> training set = training set generator (data store) 如 果 没 有 得 到 足够 多 的 训练 样本 ,就 继 
如 果 你 已 经 收集 了 足够 多 的 训练 数据 样本 ， 则 通过 yield 续 读 取 更 多 行 , 基于 分 阳 符 “|” 进 行 拆 
函数 返回 训练 数据 和 预期 的 训练 输出 。 在 将 数据 提供 给 分 ， 并 将 结果 分 别 保存 在 列表 X 和 YY 中 


























模型 的 人 方法 之 后 ，Python 会 在 yield 语句 之 后 返回 





在 我 们 的 示例 中 ，training_set_generator 函数 读 和 人 以 “|” 分 隔 值 的 文件 ， 不 过 它 可 
以 从 任何 数据 库 或 任何 其 他 数据 存储 系统 加 载 数据 。 
生成 器 的 一 个 缺点 是 , 它 不 返回 关于 训练 数据 阵列 大 小 的 任何 信息 。 因 为 不 知道 有 多 少 训练 
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数据 可 用 ， 所 以 必须 使 用 Keras 模型 略 有 不 同 的 fit、predict 和 evaluate 方法 。 
我 们 不 再 使 用 下 面 的 方法 训练 模型 ; 


>>> model .fit (x=X, 


y=Y, 
batch size=32, 
epochs=10, 


verbose=1, 
validation split=0.2) 


而 使 用 下 面 的 方法 开始 训练 模型 : 


fit_generator 期 望 传 给 它 的 是 一 个 生成 器 ， 它 可 以 是 你 的 
训练 集 生成 器 ， 也 可 以 是 你 编写 的 任何 其 他 生成 右 


























>>> data store = '/path/to/your/data.csyv' 
>>> model.fit generator (generator=training set generator (data store, 
batch size=32)， < 
steps per epoch=100, <4 
ee ne 
verbose=1, 、 pt Ea: 
训练 周期 的 数量 
validation data=[X val，Y vall]) 0 


与 在 原始 fit 方法 中 定义 batch_size 不 同 ，fit _generator 
需要 每 个 训练 周期 的 步骤 数 steps_per_epoch。 每 一 步 都 













































因为 fit_gonerator 无 法 获得 完整 的 训练 数据 ， 调用 生成 器 。 将 steps_per_epoch 设置 为 训练 样本 数量 除 
人 以 patch_size, 这 样 你 的 模型 将 在 每 个 训练 周期 中 使 用 
法 ， 而 需要 你 定义 validation_data 方法 次 完整 的 训练 集 





如 果 使 用 生成 器 ， 可 能 还 需要 更 新 模型 的 evaluate 


>>> model.evaluate generator (generator=your eval generator (eval_aqatar 
batch size=32), steps=10) 


和 predict 方法 
>>> model.predict generator (generator=your predict generator(\ 
prediction data, batch size=32), steps=10) 
警告 生成 器 在 内 存 中 和 运行 很 高 效 ， 但 它们 也 可 能 成 为 模型 训练 期 间 的 瓶颈 并 减 慢 训练 迭代 速度 。 
在 开发 训练 函数 时 注意 生成 器 的 运行 速度 。 如 果 即 时 处 理 数 据 减 慢 了 生成 器 的 运行 速度 ， 那么 对 训 
练 数据 进行 预 处 理 或 者 租用 具有 更 大 内 存 配置 的 实例 , 或 者 同时 采用 这 两 种 方法 , 都 可 能 带 来 帮助 。 


13.6 使 用 TensorBoard 了 解 模型 


在 训练 模型 时 深入 了 解 模型 性 能 , 并 将 其 与 之 前 的 训练 进行 比较 , 这 不 是 很 好 吗 ? 或 者 快速 
绘制 词 伐 人 来 检查 语义 相似 性 ? 谷歌 的 TensorBoard 就 提供 了 这 样 的 功能 。 

在 使 用 TensorFlow (或 使 用 Keras 和 了 TF 后 端 ) 训练 模型 时 , 可 以 使 用 TensorBoard 深入 了 解 
我 们 的 NLP 模型 。 我 们 可 以 使 用 它 来 跟踪 模型 训练 指标 ,绘制 网 络 权 重 分 布 ， 可 视 化 词 租 入 以 
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人 


及 完成 其 他 任务 。TensorBoard 易于 使 用 ， 它 通过 浏览 需 连 接 到 训练 实例 。 
如 果 想 与 Keras 一 起 使 用 TensorBoard， 那 么 需要 像 任 何其 他 Python 包 一 样 安装 TensorBoard 


pip install tensorboard 
安装 完成 后 ， 现 在 可 以 用 下 列 命令 启动 它 : 


tensorboard --logdir=/tmp/ 





在 TensorBoard 运行 后 ， 如 果 在 笔记 本 电脑 或 台式 PC 上 进行 训练 ， 那 么 请 在 浏览 器 中 通过 
localhost 的 6006 端口 (http:/127.0.0.1:6006 ) 访问 。 如 果 在 租用 的 GPU 实例 上 训练 模型 ， 请 
使 用 GPU 实例 的 公共 IP 地址， 并 确保 GPU 提供 商 允 许 通 过 端口 6006 进行 访问 。 

一 旦 登录 后 ， 就 可 以 探索 模型 性 能 。 








如 何 可 视 化 词 嵌 入 





TensorBoard 是 一 个 可 视 化 词 能 和 的 好 工具 。 特 别 是 当 训练 自己 的 、 基 于 特定 领域 的 词 认 入 
时 , 能 和 可视化 可 以 帮助 验证 语义 相似 性 。 将 词 模型 转换 为 TensorBoard 可 以 处 理 的 格式 很 简单 。 
将 词 向 量 和 向 量 标签 加 载 到 TensorBoard 后 ， 它 将 执行 降 维 到 二 维 或 三 维 的 操作 。TensorBoard 
目前 提供 3 种 降 维 方法 : PCA 、t-SNE 和 自 定义 降 维 。 

代码 清单 13-14 展示 了 如 何 将 词 租 入 转换 为 TensorBoard 格式 并 生成 投影 数据 。 


代码 清单 13-14 ”将 词 赔 入 转换 为 TensorBoard 格式 并 生成 投影 数据 





>>> import os 人 会 3 有 
也 参数 . 
SS 宇 和 EL 二 二 革 create_ projection 函数 有 3 个 参数 : 能 入 数据 、 


>>> import numpy as np 影 的 名 称 ， 以 及 存储 投影 文件 的 路 径 
>>> from io import open 
>>> from tensorflow.contrib.tensorboard.plugins import projector 


>>> def create projection (projection data, 





projection name='tensorboard viz', 
path="'/tmp/'): 4 
meta file = "{}.tsv".format (projection name) 
Vector dim = len(projection data[l0] [1] 
samples = len (projection data) 
projection matrix = np.zeros((samples, vector dim)) 





with open(os.path.join(path, meta file), 'w') as file metadata: 


for i, row in enumerate (projection data): 
label, vector = row[0], row[1] WE 
projection matrix[i] = np.array (vector) 一 个 numpy 数组 ， 然 后 该 数组 将 


file metadata.write("{}\n".format (label)) 被 转换 为 一 个 TensorFlow 变量 
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SeSS 


embedding 


tf.global variables initializer() 


Saver 
writer 


Sonfig 
embed 


embed.tensor name 
embed.metadata path 
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tf.InteractiveSession () 





要 创建 TensorBoard 投 
影 ， 你 需要 创建 一 个 


TensorFlow 会 话 


tf.Variable (projection matrix, 
trainable=False, 
name=projection name) 

| 


tf.train.Saver() 
tf.summary.FileWriter (path, 


sess.graph) 


ee TensorFlow 提供 了 内 置 的 
projector.ProjectorConfig Js 他 于 
config.embeddings.add() 方法 来 创建 投影 


'{}'.format (projection name) 
os.path.join(path, meta file) 





























ProJect or Svar eon er Mos (WT Se, Sentg) visualize embeddings 方法 将 投 
saver.save (sess, os.path.join(path, {} Gkpt" \ pe pp ba 钛 请 间 
.format (projection name) ) ) 影 结 果 写 人 你 的 路 径 中 , 然后 就 
Print('Run ‘tensorboard --logdir={0}. to run\ 可 以 使 用 TensorBoard 了 
visualize result on tensorboard'.format (path)) 
函数 create projection 获取 元 组 列表 ( 预期 先是 向 量 ， 然 后 是 标签 ) 并 将 其 转换 为 


TensorBoard 投影 文件 。 一 旦 投影 文件 被 创建 并 可 供 TensorBoard 使 用 (在 上 例 中 ，TensorBoard 预期 的 
文件 在 tmp 目录 中 )， 


>>> 
>>> 
>>> 
>>> 
>>> 


(1 


全 及 在 y 
(EGY 
] 


create proj 


TensorBoard 


前 往 浏览 器 中 的 TensorBoard 页 面 并 查看 移入 的 可 视 化 结果 ( 如 图 13-5 所 示 ): 


projection - 
projection_ 


name = "NLP in Action™ 
data = [ 
[O34 :7 =0a712])s 
[0.46, ep OBA 


ection (projection data, projection name) 


DISTRIBUTIONS. EMBEDDINGS 



































DATA 3 B EY Pein:20000| Dmension:s00 |Seleed S2points 区 性 
nh 
@ Se ~ | wy -~ 
label socoer neighbors © @— 51 
二 Nearest points in the original space: 
让 
Vota 0568 
款 昌 
人 区 
这 
mi 了 :机 
ean, Qe2 
comparertts 。 回 em 
Total variance described: 7.6%. BOOKMARKS (0) © ~ 
用 吉 果 进行 可 视 化 
图 13-5 利用 TensorBoard 对 word2vec 的 能 入 结 行 可 视 
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人 








13.7 小 结 


像 Annoy 这 样 的 局 部 敏感 哈 希 使 潜在 语义 索引 成 为 现实 。 

GPU 加 速 模型 训练 ， 缩 短 模型 的 迭代 周期 , 便于 更 快 地 构建 更 好 的 模型 。 

CPU 并 行 化 对 于 无 法 从 大 型 矩阵 的 加 速 乘法 中 受益 的 算法 有 意义 。 

可 以 使 用 Python 的 生成 器 绕 过 系统 内 存 瓶 颈 ， 为 GPU 和 CPU 实例 节省 资金 。 

谷歌 的 TensorBoard 可 以 帮 大 家 实现 可 视 化 和 提取 可 能 想不到 的 自然 语言 认 和 人。 

掌握 NLP 并 行 化 可 以 扩展 大 家 的 脑力 ， 提 供 一 个 由 机 器 集群 构成 的 心智 社会 来 帮 大 家 


中 
思 考 O 




















OD 


见 Peter Watts 关于 有 意识 的 蚂蚁 和 人 类 蜂 房 的 视频 。 
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如 果 大 家 已 经 安装 nlpia 包 (https://github.com/totalgood/nlpia )， 就 可 以 运行 本 书 中 的 所 有 
示例 。 我 们 会 保持 README 文件 中 的 安装 说 明 为 最 新 版 本 。 但 是 ， 如 果 你 已 经 安装 了 Python3 ， 而 
且 觉 得 自己 手气 不 错 (或 者 幸运 地 拥有 一 个 Linux 环境 ) 的 话 ， 那 么 可 以 尝试 执行 : 


$ git clone https://github.com/totalgood/nlpia 
$ pip3 install -~e nlpia 


如 果 上 面 的 命令 不 起 作用 的 话 , 那么 可 能 需要 在 操作 系统 下 安装 一 个 软件 包 管理 器 和 一 些 二 
进 制 软件 包 。 我 们 将 用 3 节 分 别 介绍 不 同 操作 系统 下 的 一 些 具体 使 用 说 明 : 

国 Ubuntu ; 

国 Mac; 

国 Windows。 

在 这 几 节 中 会 展示 操作 系统 包 管理 器 的 安装 方法 。 一 旦 安装 了 软件 包 管理 器 (或 者 使 用 一 个 
像 Ubuntu 这 样 已 经 安装 包 管理 器 的 对 开发 人 员 友 好 的 操作 系统 )， 就 可 以 安装 Anaconda3。 


A1 Anaconda3 


Python 3 具有 很 多 高 性 能 和 表达 能 力 强 的 功能 ， 非 常 适合 NLP。 在 几乎 所 有 系统 上 安装 
Python 3 的 最 简单 方法 是 安装 Anaconda3。 这 样 做 的 另 一 个 好 处 是 提供 了 一 个 包 和 环境 管理 器 ， 
可 以 在 各 种 容易 出 问题 的 操作 系统 ( 如 Windows ) 上 安装 很 多 容易 出 问题 的 包 (如 matplotlibp )。 

可 以 运行 代码 清单 A-1 的 代码 , 以 编程 方式 安装 最 新 版 本 的 Anaconda 及 其 conqa 软件 包 管 
理 希 。 

















代码 清单 A-1 安装 Anaconda3 


$ OS=MacOSX # or Linux or Windows 
$ BITS= 64 # or '' for 32-bit 
$ curl https://repo.anaconda.com/archive/ > tmp.html 
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$ FILENAME=$ (grep -o -E -e "Anaconda3-[.0-9]+-$0S- 
Xx86$BITS\. (shlexe)" tmp.html | head -n 1) 
$ curl "https://repo.anaconda.com/archive/$FILENAME" > install anaconda 
$ chmod +x install anaconda 
$ ./install anaconda -b -p ~/Anaconda 
$ export PATH="$HOME/Anaconda/bin:$PATH" 
$ echo 'export PATH="$HOME/Anaconda/bin:$PATH"' >> ~/.bashrc 
$ echo 'export PATH="$HOME/Anaconda/bin:$PATH"' >> ~/.bash profile 
$ source ~/.bash profile 
$ rm install anaconda 





现在 就 可 以 创建 一 个 虚拟 环境 : 不 是 Python virtualenv， 而 是 一 个 更 完整 的 conda 环境 , 它 
将 所 有 Python 的 二 进 制 依赖 项 与 操作 系统 Python 环境 隔离 开 来 。 然 后 ， 可 以 在 该 conga 环境 中 
使 用 代码 清单 A-2 安装 NLPIA 的 依赖 项 和 源 代码 。 





A2 安装 mlpia 


我 们 喜欢 在 用 户 目 录 $HOME 下 面 的 code/ 子 目录 下 安装 正在 开发 的 软件 源 代码 ,但 是 读者 
也 可 以 把 它 放 在 任何 自己 喜欢 的 地 方 。 如 果 代 码 清单 A-2 中 的 代码 不 起 作用 ， 请 查看 nlpia 的 
README 文件 ， 以 获取 更 新 的 安装 说 明 。 











代码 清单 A-2 ”使 用 conda 安装 nlpia 源码 





在 根 conda 环境 下 为 pip 安装 最 新 的 





















































$ mkdir -p ~/code > 

$ cd ~/code conda 二 进 制 文件 

$ git clone https://github.com/totalgood/nlpia 将 pip 更 新 为 最 新 的 pypi.python.org 版 

$ cd ~/code/nlpia 本 ， 这 里 终于 pip 安装 了 pip 

$ conda install -y pip < 一 

$ pip install --upgrade pip 

$ conda env create -n nlpiaenv -f conda/environment .yml 

$ Source activate nlpiaenv pe 

$ pip install --upgrade pip 激活 Python 环境 

$ pip install -e . < 一 一 创建 一 个 conda 环境 ， 即 一 个 

"$SHOME/Anaconda3/envs/nlpi 
为 nipia 创建 一 个 可 编辑 的 源码 目录 ,从 “| 在 nlpiaenv 环境 下 安装 而 | 
最 i 相 燥 信之 | 田 晤 未 

而 无 沦 何 时 将 编辑 结果 存储 到 磁盘 ， 所 | 。 | 最 新 的 Pip 
有 的 源码 及 数据 变化 都 会 实时 在 线 





NA3 ”集成 开发 环境 


现在 你 的 机 器 上 有 了 Python 3 和 NLPIA, 下 面 只 需要 一 个 优秀 的 文本 编辑 需 来 搭建 我 们 的 
集成 开发 环境 (IDE )。 我 们 不 安装 JetBrains 提供 的 像 PyCharm 这 样 的 完整 系统 ， 而 安装 适合 
小 规模 团队 开发 使 用 的 个 人 工具 ( 如 为 单 人 团队 所 用 的 Sublime Text )， 后 者 可 以 把 一 件 事 做 得 
很 好 。 
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提示 “开发 者 为 开发 者 开发 工具 确实 存在 ， 特 别 是 当 开发 团队 是 一 个 人 的 团队 时 更 是 如 此 。 个 人 
发 者 通常 会 开发 出 比 公司 开发 者 更 好 的 工具 ， 因 为 个 人 更 愿意 吸纳 其 用 户 的 代码 和 建议 。 由 于 需要 
而 开发 一 个 工具 的 个 人 开发 者 一 般 是 开发 一 个 针对 其 工作 流 和 进行 优化 的 工具 。 如 果 他 们 开发 的 工具 
可 靠 、 功 能 强大 且 很 受 欢 迎 ， 那 么 他 们 的 工作 流 会 非常 棒 。 从 另 一 个 角度 说 ， 像 Jupyter 这 样 的 大 
型 开源 项 目 也 很 棒 。 只 要 它们 没有 使 用 开源 项 目的 商业 许可 代码 分 支 ， 它 们 一 般 就 会 非常 通用 并 且 
功能 齐全 。 


幸好 ，Python IDE 所 需 的 工具 都 是 免费 的 、 可 扩展 的 ,并且 是 持续 维护 的 ， 大 多 数 甚至 是 开 
源 的 ， 所 以 你 可 以 把 它们 留 作 自用 。 

国 Sublime Text 3: 带 Package Control 和 Anaconda 自动 纠 错 检查 的 文本 编辑 器 。 

国 Meld; 适用 于 Mac 或 其 他 操作 系统 的 代码 合并 工具 。 

图 ipython (Jupyter 控制 台 ): 用 于 阅读 一 评估 一 打印 一 循环 (开发 工作 流 )。 

国 jupyter 记事 本 : 用 于 创建 报告 、 教 程 和 博客 文章 ， 或 用 于 与 老板 分 享 结果 。 


提示 “一 些 非 常 高 效 的 开发 人 员 使 用 Python 的 REPL 工作 流 。ipython、jupyter 控制 台 和 
jupyter 记事 本 等 REPL 控制 台 非 常 强大 ， 同 时 它们 还 有 help、?、?? 和 % 等 神奇 的 命令 ， 另 外 它 
们 的 属性 、 方 法 、 和 参数、 文件 路 径 甚 至 是 dict 键 都 能 借助 tab 健 完成 自动 补 全 。 在 使 用 Google 或 
Stack Overflow 搜索 之 前 ,我 们 可 以 尝试 使 用 像 >>> sklearn.linear model .BayesianRidge?? 
这 样 的 命令 来 探索 所 导入 的 Python 包 对 应 的 代码 文档 和 源 代 码 。Python 的 REPL 甚至 允许 我 们 在 
手指 不 离开 键盘 的 情况 下 执行 shell 命令 ( 尝试 >>> !git pull 或 >>> !find . -name nlPia )， 
这 样 可 以 最 大 限度 地 减少 上 下 文 切换 并 最 大 限度 地 提高 工作 效率 。 







































































A4 Ubuntu 包 管理 器 


Linux 发 行 版 已 经 安装 了 功能 齐全 的 包 管 理 器 。 如果 使 用 Anaconda 的 软件 包 管 理 器 conda， 
那么 就 像 NLPIA 安装 说 明 中 所 建议 的 那样 ， 可 能 根本 用 不 着 系统 自 带 的 那个 包 管理 器 。Ubuntu 
的 包 管理 器 叫 作 apt。 在 A.3 节 中 我 们 已 经 建议 安装 了 一 些 软件 包 。 几 乎 可 以 肯定 , 你 并 不 需要 
所 有 的 这 些 软件 包 ， 但 我 们 还 是 提供 了 一 个 详尽 的 工具 代码 清单 ， 以 防 你 在 使 用 Anaconda 安装 
软件 时 提示 缺少 二 进 制 文 件 。 我 们 可 以 从 第 一 行 开始 向 下 执行 ,直到 conda 能 够 安装 Python 包 
为 止 。 具 体 参见 代码 清单 A-3。 














代码 清单 A-3 ”使 用 apt 安装 开发 工具 


$ sudo apt-get update 
$ sudo apt install -y build-essential libssl-dev g++ cmake swig git 
$ sudo apt install -~y python2.7-dev python3.5-dev libopenblas-dev libatlasbase- 








Q@ 这 里 说 的 就 是 “数字 游民 ”( Digital Nomad ) Steven Skoczen 和 “ 老 伙计 ”( The Dude ) Aleck Landgraf。 
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dev gfortran libgtk-3-dev 

sudo apt install -y openjdk-8-jdk python-dev python-numpy pythonpip 
python-virtualenv python-wheel python-nose 

sudo apt install -y python3-dev python3-wheel python3-numpy pythonscipy 
python-dev python-pip python3-six python3-pip 

sudo apt install -~y python3-pyaudio python-pyaudio 

sudo apt install -~y libcurl3-dev libcupti-dev xauth xll-apps python-qt4 

sudo apt install -~y python-opencv-dev libxvidcore-dev libx264-dev libjpeg8- 
dev libtiff5-dev libjasper-dev libpngl2-dev 


提示 “如果 apt-get update 命令 失败 并 出 现 关 于 lbazel 的 错误 , 那么 可 能 需要 添加 谷歌 的 apt 
仓库 以 及 用 于 TensorFlow 的 构建 工具 。 


Am Am Am 


A 





A5 Mac 
在 安装 与 其 他 开发 人 员 保持 一 致 所 需 的 所 有 工具 之 前 ， 需 要 一 个 真正 的 包 管理 器 (不 是 XCode )。 





A.5.1 一 个 Mac 包 管 理 器 


Homebrew 可 能 是 最 受 开 发 人 员 欢 迎 的 Mac 系统 命令 行 包 管理 器 。 它 易于 安装 ， 并 且 包 含 
开发 人 员 使 用 的 大 部 分 工具 的 一 键 安 装 包 。 它 相当 于 Ubuntu 的 apt 包 管 理 器 。 苹 果 公 司 本 可 
以 确保 他 们 的 操作 系统 能 够 与 apt 兼容 ， 但 他 们 不 希望 开发 人 员 绕 过 他 们 的 XCode 和 App Store 
的 “渠道 "， 这 显然 是 出 于 商业 利益 考虑 。 所 以 一 些 勇敢 的 Ruby 开发 人 员 开发 了 他 们 自己 的 包 
管理 器 。 它 几乎 和 apt 或 任何 其 他 操作 系统 自 带 的 二 进 制 包 管理 器 一 样 好 。 具 体 参见 代码 清 
单 A-4。 


代码 清单 A-4 ”安装 brew 


$ /usr/bin/ruby -e "$ (curl -fsSL https://raw.githubusercontent.com/Homebrew/ 
install/master/install)" 


系统 会 要 求 按 回 车 键 确认 ， 并 输入 root 或 者 sudo 密码 。 因 此 ， 在 输入 密码 并 且 安 装 脚 本 开 
始 顺 利 执行 之 前 ， 不 要 离开 去 煮 咖啡 。 























A.5.2 一 些 工具 包 
brew 装 好 之 后 ， 可 能 还 需要 安装 一 些 好 用 的 Linux 工具 ， 如 代码 清单 A-5 所 示 。 


代码 清单 A-5 “安装 开发 工具 


$ brew install wget htop tree pandoc asciidoctor 





Q 详 见 Homebrew package manager 的 维基 百科 页 面 。 
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A.5.3 准备 工作 


如 果 你 对 NLP 和 软件 开发 非常 认真 ， 那 么 需要 确保 操作 系统 准备 妥当 以 便 能 够 胜任 工作 。 
下 面 是 我 们 在 Mac 上 创建 新 的 用 户 账 户 时 安装 的 内 容 。 

加 Snappy: 用 于 屏幕 截图 。 

田 CopyClip: 用 于 管理 剪贴 板 。 

如 果 想 与 其 他 NLP 开发 者 分 享 屏 幕 截 图 ， 就 需要 一 个 屏幕 截图 软件 ， 如 Snappy。 而 剪贴 板 
管理 器 ( 如 CopyClip ) 则 允许 你 一 次 复制 和 粘贴 多 项 内 容 ， 并 在 不 重启 系统 的 情况 下 保留 剪贴 板 
历史 记录 。 剪 贴 板 管理 器 提供 在 图 形 用 户 界面 执行 复制 和 粘贴 操作 时 搜索 控制 台历 史 ( [ctr1l] - 
[R] ) 的 强大 功能 。 

同时 我 们 还 应 该 增加 bash shell 的 历史 记录 ， 添 加 一 些 更 安全 的 rm -f 别名 ,设置 默认 编辑 
器 ,创建 彩色 提示 符 文 本 ， 以 及 为 浏览 器 、 文 本 编辑 器 和 代码 合并 工具 添加 open 命令 ， 具体 如 
代码 清单 A-6 所 示 。 


代码 清单 A-6 bash_profile 脚本 


#!/usr/bin/env bash 

echo "Running customized ~/.bash profile script: '$0' ....... 

export HISTFILESIZE=10000000 

export HISTSIZE=10000000 

append the history file after each session 

shopt -s histappend 

allow failed commands to be re-edited with Ctrl-R 

shopt -s histreedit 

command substitions are first presented to user before execution 

shopt -s histverify 

store multiline commands in a single history entry 

shopt -s cmdhist 

check the window size after each command and, if necessary, update the valu 
es of LINES and COLUMNS 

shopt -s checkwinsize 

grep results are colorized 

export GREP OPTIONS='--color=always' 

grep matches are bold purple (magenta) 

export GREP COLOR="'1;35;40' 

record everything you ever do at the shell in a file that won't be unintent 
ionally cleared or truncated by the OS 

export PROMPT COMMAND='echo "# cd SPND" >> ~/ 

.bash history forever; '$PROMPT COMMAND 
export PROMPT COMMAND="history -ay history -c; history -r; history 1 >> ~/ 
.bash history forever; S$PROMPT COMMAND" 

# so it doesn't get changed again 

readonly PROMPT COMMAND 

# USAGE: subl http://*****x*.com # opens in a new tab 





























if [ ! -ft /usr/local/bin/firefox ]; then 
ln -s /Applications/Firefox.app/Contents/MacOS/firefox /usr/local/bin/ 
firefox 
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下 二 
alias firefox='open -a Firefox' 
# USAGE: subl file.py 


if [ ! -f /usr/local/bin/subl ]; then 
ln -s /Applications/Sublime\ Text.app/Contents/SharedSupport/bin/subl / 
usr/local/bin/subl 

长 和 

# USAGE: meld filel file2 file3 

if [ ! -f /usr/local/bin/meld ]; then 


ln -s /Applications/Meld.app/Contents/MacOS/Meld /usr/local/bin/meld 
人 
export VISUAL="'subl -w' 
export EDITOR="$VISUAL" 
# you can use - 

f to override these interactive nags for destructive disk writes 

alias rm="rm -i"™ 
alias mv="mv -i" 
alias CQ 5 
alias ...="cd ../.." 


可 以 使 用 GitHubGist 搜索 功能 找到 其 他 bash_profile 脚本 。 


用 于 包 管 理 的 命令 行 工 具 (如 Windows 上 的 cygwin ) 并 不 是 那么 好 。 但 如 果 在 Windows 机 需 
上 安装 了 GitGUI， 那 么 会 得 到 一 个 bash 提示 符 和 一 个 能 运行 Python REPL 控制 台 的 可 用 终端 工具 。 

(1 ) 下 载 并 安装 git 安装 程序 。 

(2 ) 下 载 并 安装 GitHub Desktop 。 

git 安装 程序 附带 了 一 个 版 本 的 bash shell， 应 该 可 以 在 Windows 中 很 好 地 工作 , 但 它 安 装 的 
git-gui 对 用 户 不 是 十 分 友好 ， 特 别 是 对 于 初学 者 更 是 如 此 。 除 非 在 命令 行 (Windows 下 的 bash 
shell ) 里 使 用 git， 否 则 在 Windows 下 所 有 9it 的 push/pull/merge 需求 都 应 通过 GitHub Desktop 
来 完成 。 在 本 书 的 整个 编辑 过 程 中 ， 我 们 遇 到 了 一 些 问 题 : 当 出 现 版 本 冲突 时 ，git-gui 会 执行 
一 些 无 法 预料 的 操作 ， 这 些 操 作 覆 盖 了 其 他 人 提交 的 内 容 ， 即 使 在 不 涉及 冲突 的 文件 中 也 是 如 此 。 
这 就 是 我 们 建议 在 原始 git 和 git-bash 之 上 安装 GitHub Desktop 的 原因 。GitHub Desktop 提供 
了 对 用 户 更 加 友好 的 git 体验 ， 让 你 知道 什么 时 候 需要 pull 或 push 或 merge 更 改 结果 。” 

一 日 在 Windows 终端 上 运行 了 一 个 shell， 就 可 以 像 我 们 在 其 他 部 分 一 样 使 用 github 仓库 
README 中 的 说 明 ， 安 装 Anaconda 并 使 用 conga 包 管理 器 来 安装 nlpia 包 。 







































































虚拟 化 
如 果 对 Windows 感到 不 满意 ， 可 以 安装 VirtualBox 或 者 Docker， 然 后 用 Ubuntu 操作 系统 





Q@ 非常 感谢 Manning 出 版 社 的 Benjamin Berg 和 Darren Meiss 发 现 了 这 一 点 ， 也 非常 感谢 他 们 为 了 让 本 书 
符合 要 求 而 付出 的 所 有 努力 。 
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创建 一 个 虚拟 机 。 这 个 主题 需要 用 整 本 书 (或 至 少 一 章 ) 来 介绍 ， 在 这 个 领域 有 比 我 们 做 得 更 
好 的 人 : 

国 Jason Brownlee; 

国 Jeroen Janssens; 

国 Vik Paruchuri; 

四 Jamie Hall。 

在 Windows 世界 中 使 用 Linux 的 另 一 种 方法 是 使 用 微软 的 Ubuntu shell 应 用 程序 。 我 没有 用 过 ， 
所 以 我 无 法 保证 它 与 你 要 安装 的 Python 包 的 兼容 性 。 如 果 你 尝试 使 用 , 请 在 nlpia 仓库 中 与 我 们 
分 享 你 的 知识 ， 并 在 文档 上 发 起 一 个 新 功能 (feature ) 或 拉 取 (pull ) 请 求 。Manning 出 版 社 网 站 
上 的 本 书 论坛 也 是 你 分 享 知 识 和 获取 帮助 的 好 地 方 。 














A.7 NLPIA 自动 化 


幸运 的 是 ，nlpia 有 一 些 自动 环境 配置 程序 ， 可 以 下 载 NLTK、Spacy、Word2vec 模型 以 及 
本 书 所 需 的 数据 。 只 要 调用 的 nlpia 包装 需 函 数 ( 如 segment_sentences () ) 需要 任何 上 述 
的 数据 集 或 模型 ， 就 会 触发 这 些 下 载 程序 。 但 是 ， 该 软件 还 在 开发 中 ,并 不 断 由 像 各 位 一 样 的 读 
者 进行 维护 和 扩展 。 因 此 ， 当 nlpia 的 自动 化 失败 时 ， 你 可 能 想 知道 如 何 手动 安装 这 些 软件 包 
并 下 载 所 需 的 数据 ,从 而 使 它们 能 够 正常 工作 。 你 也 可 能 只 对 那些 用 于 句子 解析 和 词性 标注 的 数 
据 集 感到 好 奇 。 因 此 ， 如 果 要 自 定义 环境 ， 后 续 的 附录 将 展示 如 何 安 装 和 配置 功能 齐全 的 NLP 
开发 环境 所 需 的 各 个 组 件 。 
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UUB UUD Python 
UUDUUOUD 





为 了 充分 挖掘 本 书 的 价值 ， 需 要 熟悉 Python ， 需 要 达到 玩 转 Python 的 程度 。 当 代码 不 能 
常 运 行 时 ， 需 要 能 够 尝试 各 种 方法 ， 探 寻 一 种 能 够 让 Python 按照 我 们 的 设想 运行 的 方式 。 

即使 代码 运行 正常 ， 各 种 尝试 也 有 助 于 发 现 很 酷 的 新 方法 或 者 隐藏 在 代码 中 的 “怪物 ”。 
为 类 似 于 英语 这 样 的 语言 有 很 多 不 同 的 表达 方式 , 所 以 隐藏 的 错误 和 边界 情况 在 自然 语言 处 理 中 
非常 常见 。 

为 了 获得 乐趣 ， 你 只 需 像 孩子 一 样 ， 对 Python 代码 进行 各 种 尝试 。 如 果 是 复制 和 粘贴 代码 ， 
那么 试 着 去 修改 。 尝 试 一 下 破坏 并 修复 代码 , 将 代码 拆 分 成 尽 可 能 多 的 独立 表达 式 , 通过 函数 或 
类 为 代码 片段 创建 模块 ， 然 后 将 其 还 原 成 尽 可 能 少 的 代码 行 。 

使 用 自己 创建 的 数据 结构 、 模 型 或 函数 随意 尝试 。 尝试 运行 你 认为 应 该 包含 在 模块 或 类 中 的 
命令 。 经 常 使 用 键盘 上 的 Tab 键 。 当 按 下 Tab 键 时 ,编辑 带 或 shell 会 尝试 基于 已 经 完成 键入 的 
变量 、 类 、 函 数 、 方 法 、 属 性 或 者 路 径 名 称 来 补 全 你 的 输入 。 

使 用 Python 和 shell 提供 的 所 有 help 命令 。 就 像 Linux shell 中 的 man 一 样 ，help () 是 内 
置 在 Python 中 的 好 朋友 。 尝 试 在 Python 控制 台 输 入 help 或 help (object)。 当 IPython 上 运 
行 ? 和 ?? 命 令 失 败 时 ， 它 应 该 也 能 正常 运行 。 如 果 读 者 以 前 从 未 这 样 做 过 ， 尝 试 一 下 在 Jupyter 
控制 台 或 Jupyter 记事 本 中 运行 object? 和 object?? 命 令 。 

这 篇 Python 入 门 介绍 的 剩余 部 分 列举 了 本 书 中 用 到 的 数据 结构 和 函数 ， 以 便 我 们 可 以 开始 
使 用 它们 : 

国 str 和 bytes; 
ord 和 chr; 

.format () ; 
dict 和 OrderedDict; 




































































list、 np.array、 pd.Series; 


pd.DataFrame, 


我 们 还 介绍 了 在 本 书 和 nlpia 包 中 用 到 的 一 些 模式 和 内 置 Python 函数 : 
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国 ”列表 解析 式 一 一 [x for x in range(10)]; 

国生 成 需 一 一 (x for x in range(1000000000)); 

加 正则 表达 式 re.match(r' [A-2a-z ]+', 'Hello World'); 
国 ”文件 操作 符 open('path/to/file.txt'), 


B.1 处 理 字符 串 


自然 语言 处 理 完全 就 是 处 理 字 符 串 。Python 3 中 的 字符 串 有 很 多 可 能 会 令 人 感到 意外 的 怪异 
之 处 , 特别 当 大 家 有 丰富 的 Python 2 经 验 时 更 是 如 此 。 因 此 , 大 家 需要 熟悉 字符 串 以 及 处 理 它 们 
的 所 有 方式 ， 以 便 能 以 轻松 处 理 自然 语言 中 的 字符 串 。 














B.1.1 字符 串 类 型 ( str 和 bytes ) 





字符 串 〈( stz ) 是 Unicode 字符 序列 。 如 果 在 str 中 使 用 非 ASCII 字符 ,， 则 这 些 字符 可 能 
含 多 个 字 节 。 如 果 从 网 上 复制 字符 串 并 粘贴 到 Python 控制 台 或 者 程序 中 ， 会 经 常 包含 非 ASCII 
字符 ， 其 中 有 一 些 还 很 难 发 现 ， 例 如 那些 不 对 称 的 引导 和 省 略 号 。 

当 使 用 Python 的 open 命令 打开 文件 时 ， 默 认 情 况 下 该 文件 会 被 作为 str 读 和 信 。 如 果 打 开 
二 进 制 文件 ， 如 预 训练 Word2vec 模型 的 “.txt” 文 件 ， 却 没有 指定 mode = 'b' ， 那么 文件 将 无 
法 正确 加 载 。 尽 管 gensim.KeyedVectors 模型 的 类 型 可 能 是 文本 而 不 是 二 进 制 文件 , 但 必须 
以 二 进 制 模式 打开 ， 这 样 gensim 在 加 载 模型 时 Unicode 字符 不 会 出 现 乱 码 ， 这 一 点 对 于 使 用 
Python 2 保存 的 CSV 文件 或 其 他 任何 文本 文件 都 适用 。 

二 进 制 文件 (bytes ) 是 8 位 的 数组 ， 通 常用 于 保存 ASCI 字符 或 扩展 ASCII 字符 ( 十 进 
制 整 数值 大 于 128 的 字符 )。 二 进 制 文件 有 时 也 用 来 存储 RAW 格式 图 像 、WAV 音频 文件 或 其 他 
二 进 制 数据 对 象 。 




































































B.1.2 ”Python 中 的 模板 ( .format() ) 


Python 附带 了 一 个 多 功能 字符 串 模 板 系统 , 允许 使 用 变量 值 填充 字符 串 。 这 可 以 让 我 们 使 用 
数据 库 的 结果 或 者 运行 中 的 python 程序 (locals () ) 的 上 下 文 创建 动态 的 响应 。 

















B.2 Python 中 的 映射 ( dict 和 OrderedDict ) 
哈 希 表 ( 或 映射 ) 数据 结构 内 置 在 Python 的 di ct 对 象 中 。 但 是 di ct 不 强制 一 致 的 键 顺序 ， 


























Q9 没有 所 谓 的 官方 扩展 ASCII 字符 集 , 所 以 不 要 将 它们 用 于 NLP, 除非 想 让 机 器 在 学 习 通用 语言 模型 时 感 
到 困惑 。 
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因此 标准 Python 库 中 的 collections 模块 包含 一 个 OrderedDict， 人 允许 大 家 控制 键 值 对 以 
一 致 的 顺序 来 存储 ( 基于 插入 新 键 时 的 顺序 )。 








B.3 ”正则 表达 式 














正则 表达 式 是 具备 自己 的 编程 语言 的 小 型 计算 机 程序 。 每 个 像 r' [a-z] +' 这 样 的 正则 表 
达 式 字符 串 都 可 以 编译 成 一 个 小 程序 , 用 于 在 其 他 字符 串 上 运行 以 查找 匹配 项 。 我 们 在 后 面 提供 
了 快速 参考 和 一 些 示 例 , 但 是 如 果 要 认真 对 待 NLP 的 话 , 那么 可 能 希望 深入 研究 一 些 在 线 教程 。 
像 前 面 一 样 ， 最 好 的 学 习 方 法 是 在 命令 行 中 进行 各 种 尝试 。nlpia 包 有 很 多 自然 语言 文本 文档 
和 一 些 有 用 的 正则 表达 式 示 例 供 大 家 尝试 。 

正则 表达 式 定义 了 条 件 表达 式 序列 ( 类 似 于 Python 中 的 if 语句 )， 每 个 条 件 表达 式 都 作用 
于 单个 字符 。 条 件 序列 形成 一 棵 树 ， 最 终 得 出 “输入 字符 串 是 否 匹 配 ” 这 个 问题 的 答案 。 因 为 每 
个 正则 表达 式 只 能 匹配 有 限 数量 的 字符 串 并 且 具 有 有 限 数量 的 条 件 分 支 , 所 以 它 定义 了 一 个 有 限 
状态 机 (FSM )。” 

re 包 是 Python 中 默认 的 正则 表达 式 编译 器 /解释 器 , 但 新 的 官方 包 是 regex, 可 以 使 用 Pip 
install regex 轻松 安装 。 后 者 更 强大 ， 能 更 好 地 支持 Unicode 字符 和 模糊 匹配 ( 对 于 NLP 
来 说 非常 棒 )。 下 面 的 示例 不 需要 这 些 额外 功能 ， 因 此 可 以 使 用 上 述 两 个 包 中 的 任意 一 个 。 只 需 
要 学 习 一 些 正则 表达 式 符号 ， 就 可 以 解决 本 书 中 的 问题 : 






























































国 | 或 (OR ) 符号 ; 

图 ”() 一 一 用 括号 分 组 ， 就 像 在 Python 表达 式 中 一 样 ; 

图 [] 一 一 字符 类 ; 

图 \s、\b、\d、\w 一 一 常见 字符 类 的 快捷 方式 ; 

国 *x、?、1 些 限制 字符 类 出 现 次 数 的 快捷 方式 ; 

国 {7，10} 一 一 当 *、?、 和 + 不 够 用 时 ， 可 以 使 用 花 括 号 指定 出 现 次 数 的 范围 。 








B.3.1 “|” 或 

“|” 操 作 符 用 于 分 隔 字符 串 ， 这 些 字符 串 可 以 选择 性 地 匹配 输入 字符 串 从 而 得 到 正则 表达 式 
的 整体 匹配 。 因此, 正则 表达 式 Hobson|Cole|Hannes 将 匹配 本 书 任何 一 个 作者 的 名 字 ( 名 )。 
和 其 他 大 多 数 编程 语言 一 样 ， 模 式 从 左 到 右 进行 匹配 ， 当 匹配 上 之 后 停止 匹配 (“短路”)。 所 以 
在 这 种 情况 下 ，OR 符号 (| ) 之 间 模 式 的 顺序 不 会 影响 匹配 ， 因 为 所 有 模式 ( 作者 名 字 ) 对 应 的 
前 两 个 字符 都 是 唯一 的 字符 序列 。 代 码 清单 B-1 展示 了 作者 姓名 的 位 置 变 换 , 便于 大 家 自己 查看 
结果 。 






























































Q 这 只 适用 于 严格 的 正则 表达 式 语 法 ， 不 包括 前 向 环视 和 后 向 环视 的 情况 。 
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代码 清单 B-1 正则 表达 式 中 的 OR 符号 





>>> import re 

>>> re.findall(r'Hannes|Hobson|Cole', 'Hobson Lane, Cole Howard, 
= and Hannes Max Hapke') 

['Hobson', 'Cole', 'Hannes'] 





-findall0) 函 数 会 在 输入 字符 串 中 查找 所 有 非 重 秋 的 
正则 表达 式 匹配 结果 ， 因 此 其 返回 的 是 一 个 列表 
尝试 Python 的 趣味 性 ， 看 看 是 否 可 以 让 正则 表达 式 在 第 一 个 模式 上 “短路 "， 而 当 由 人 来 
判断 这 3 个 模式 时 ， 可 能 会 选择 更 好 的 匹配 : 
>>> re.findall(r'H|lHobson|lCole', "Hobson Lane, Cole Howard, 


= and Hannes Max Hapke') 
| 'Cole', 由 TH 三 :| 














B.3.2 “()” 一 一 分 组 


可 以 使 用 括号 将 多 个 符号 模式 分 组 到 一 个 表达 式 中 。 每 个 分 组 表达 式 作 为 一 个 整体 进行 匹 
配 。 所 以 r' (kittldogg)ie' 匹 配 “kitty” 或 “doggy”。 如 果 没 有 括号 ，r'kitt1qdogg 将 匹 
配 “kitt” 或 “doggy”( 注意 没有 “kitty”)。 

分 组 有 男 一 个 目的 , 它们 可 用 于 捕获 ( 提取 ) 输入 文本 的 一 部 分 。 每 个 分 组 都 在 groups () 
列表 中 分 配 了 一 个 位 置 ， 可 以 根据 它们 的 索引 从 左 到 右 进 行 提 取 。. group () 方 法 返回 整个 表达 
式 的 默认 整体 组 。 可 以 使 用 前 一 个 组 来 捕获 kitty/doggy 正则 表达 式 的 “ 词 干 ”( 没有 y 的 部 分 )， 
如 代码 清单 B-2 所 示 。 


代码 清单 B-2 正则 表达 式 中 的 分 组 括号 





>>> import re 

















>>> match = re.match(r' (kittl|ldogg)y', "doggy") 

>>> match.group() 

"aqoggy 

>>> match.group (0) 

"qdqogg 

>>> match.groups () 

('dogg',) 

>>> match = re.match(r'((kittldogg) (y))', "doggy") 如 果 想 捕获 其 分 组 
>>> match.groups () 中 的 每 部 分 
('doggy', 'dogg', 'y') 和 

>>> match.group (2) 

ry 





如 果 和 希望 /需要 为 命名 分 组 ， 以 便 将 信息 提取 为 结构 化 数据 类 型 (dict )， 则 需要 在 分 组 的 
开头 使 用 符号 P, 如 (P?<animal stemm>dogg|kitt)y。 加 








J 命名 正则 表达 式 分 组 :“P” 代 表 什么 ? 
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B.3.3 “[]” 一 一 字符 类 

字符 类 等 同 于 一 组 字符 之 间 使 用 OR 符号 (| ) 连接 ， 因 此 [abcd] 相 当 于 (alblclg) ， 
[abc123] 相 当 于 (alplcl11213) 。 

如 果 字 符 类 中 的 某 些 字符 是 字符 表 (ASCII 或 Unicode ) 中 的 连续 字符 ， 则 可 以 在 字符 之 间 
使 用 连 字 符 进行 缩写 。 因 此 [a-d] 相 当 于 [abcdl 或 (alblcld) ，[a-cl-3] 是 [abc123] 和 
(alblcl11213) 的 缩写 。 
































字符 类 快捷 方式 : 

国 \s [\t\n\r] ， 空 白 符 ; 

国 \b 一 一 字母 或 数字 边界 ; 

图 \d 一 一 [0-9] ， 一 位 数字 ; 

国 \w [a-zA-20-9 ] ， 一 个 词 或 者 变量 





8B.4 代码 风格 


即使 不 打算 与 他 人 共享 代码 ， 也 要 尝试 遵守 PEP8。 未 来 大 家 将 会 为 能 够 高 效 地 阅读 和 调试 
代码 而 心 存 感激 。 将 代码 风格 检查 工具 或 自动 风格 修正 器 添加 到 编辑 器 或 IDE 中 是 引入 PEP8 工 
具 的 最 简单 方法 。 

男 一 种 有 助 于 自然 语言 处 理 的 风格 约定 是 如 何在 两 个 都 是 引号 的 符号 (' 和") 之 间 做 出 选 
择 。 无 论 怎么 选择 ， 都 要 保持 一 致 性 。 有 一 个 方法 可 以 帮助 专业 人 士 提高 代码 的 可 读 性 。 在 定义 
用 于 机 器 处 理 的 字符 串 时 ， 总 是 使 用 单 引 号 〈' )， 例 如 正则 表达 式 、 标 记 和 标签 。 然 后 ， 对 于 人 
使 用 的 自然 语言 语料库 ， 可 以 使 用 双 引 号 ('"' )。 

对 于 原始 字符 串 (*' 和"" ) 怎 么 选择 呢 ? 所 有 正则 表达 式 都 应 该 是 单 引号 的 原始 字符 串 ， 
如 r'match [ ] this'， 即 使 它们 不 包含 反 斜 杜 。 文 档 字符 串 应 该 是 三 引号 的 原始 字符 串 ， 
如 r"""This function does NLP """。 这 样 做 之 后 ， 如 果 曾 经 为 doctests 或 正则 表达 式 添 


个 
山 


加 反 斜 杠 的 话 ， 那 么 它们 会 达到 所 期 望 的 效果 。 


B.5 技巧 


在 加 入 生产 项 目 之 前 ， 大 家 可 以 找 一 个 交互 式 编 码 挑 战 网 站 来 磨炼 自己 的 Python 技能 。 在 
阅读 本 书 时 ， 大 家 可 以 每 周 做 一 到 两 次 。 

(1) CodingBat 一 一 在 基于 Web 的 交互 式 Python 解释 器 中 的 有 趣 挑战 。 

(2 ) Donne Martin 的 编码 挑战 个 基于 Jupyter 记事 本 和 Anki 闪 卡 的 开源 代码 库 ， 有 助 
于 学 习 算 法 和 数据 。 

(3 ) DataCamp 






















































































DataCamp 上 的 Pandas 和 Python 教程 。 











@ 这 个 在 stack overflow 网 站 上 提出 的 问题 解释 了 原因 。 
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向 量 和 数字 是 计算 机 思考 的 语言 。 位 是 计算 机 处 理 的 最 基本 的 “数字 ”， 有 点 儿 像 人 类 思考 
的 语言 , 字母 (字符 ) 是 词 中 最 基本 、 不 可 切 分 的 部 分 。 所 有 数学 运算 都 可 以 简化 为 位 序列 上 的 
若干 逻辑 运算 。 当 我 们 以 类 似 的 方式 阅读 时 ， 人 脑 也 是 在 处 理 字 符 序列 。 因 此 ， 如 果 想 要 教会 计 
算 机 理解 我 们 的 词 ， 那么 第 一 个 挑战 就 是 提出 计算 机 可 用 的 , 用 于 表示 字符 、 词 、 句 子 和 中 间 概 
念 的 向 量 ， 从 而 实现 看 似 智能 的 行为 。 




















向 量 


向 量 是 一 个 有 序 的 数字 序列 ， 没 有 任何 “跳跃 ”"。 在 scikit learn 和 numpy 中 ， 向 量 是 
一 个 稠密 的 数组 (array )， 它 的 使 用 方式 很 像 Python 的 数字 列表 (1ist )。 我们 使 用 numpy 数组 而 
不 是 Python 列表 的 主要 原因 是 前 者 的 速度 快 很 多 ( 是 后 者 的 100 倍 )， 并 且 内 存 占 用 更 少 ( 只 有 
后 者 的 1/4 )。 另 外 , 我 们 可 以 使 用 向 量 运 算 , 例如 ,可 以 将 整个 数组 乘 以 一 个 值 ， 而 无 须 使 用 for 
循环 遍历 每 个 值 。 当 有 大 量 文本 包含 基于 向 量 和 数字 表示 的 大 量 信息 时 , 这 一 点 非常 重要 。 创建 
向 量 过 程 如 代码 清单 C-1 所 示 。 





























代码 清单 C-1 创建 向 量 





>>> import numpy as np 

>>> np.array (range (4)) 
array ([0, 1, 2, 3]) 

>>> np.arange (4) 

array ([0, 1, 2, 3]) 

>>> x = np.arange (0.5, 4, 1) 


>>> x 

array([ O09 ,lod Zaoy So) 
>>> x[1] = 2 

>>> x 





rav(tl Qu /2 mo. BH 
>>> x.shape 
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(4,) 

>>> x.T.shape 

(4,) 

数组 有 一 些 列表 没有 的 属性 , 例如 .shape 和 .T。. shape 属性 包含 向 量 维度 的 长 度 或 大 小 
( 即 其 包含 的 对 象 个 数 )。 当 命名 数组 和 向 量 (或 者 只 是 数字 ) 变量 时 ,我 们 使 用 小 写字 母 ， 就 像 
正式 的 数学 符号 一 样 。 在 线性 代数 、 物 理 和 工程 学 课本 中 ， 这些 字 母 通 常用 粗 体 表示 ， 有 时 在 字 
母 上 方 用 箭头 修饰 (特别 是 使 用 黑板 或 白板 的 教授 们 )。 

如 果 听 说 过 矩阵， 那么 可 能 知道 它 可 以 被 看 成 是 一 个 行 问 量 数组 ， 如 下 : 

>>> np.array ([range (4), range (4)]) 

> rray (Oy L273]7 

[人 

>>> X = np.array([range(4)，range(4)]) 

>>> X.sShape 

(2, 4) 


>>> XxX.T.shape 
(4, 2) 


T 属性 返回 矩阵 的 转 置 矩 阵 。 矩阵 的 转 置 算 阵 是 沿 着 左上 角 到 右 下 角 的 假想 对 角 线 翻转 后 得 
到 的 矩阵 。 所 以 ， 给 定 下 面 一 个 矩阵 A: 


> A mparray (tbl 202317 Edy 536] 1] 
>>> A 
array (Lt; 2 3 

[4 5 6] ) 


其 对 应 的 转 置 矩阵 是 : 


>>> A.T 

array([[1，4]， 
L273]. 
[3, 6]]) 


因此 ， 如 果 A 初始 化 为 行 向 量 的 集合 ,那么 RAR.T 将 会 把 这 些 行 向 量 转换 为 列 向 量 。 

















距离 


两 个 向 量 之 间 的 距离 可 以 通过 很 多 不 同 的 方式 来 度量 。 两 个 向 量 的 差 还 是 向 量 ， 如 代码 清 
单 C-2 所 示 。 


代码 清单 C-2 向量 的 差 
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>>> np.diff (A, axis=0) 
array (L333 

>>> A[l1] - A[O] 

Aarray (ly. S703]) 


[3，3，3] 向 量 确切 地 给 出 了 两 个 向 量 在 每 个 维度 的 距离 。 想 象 一 下 ,假设 上 述 两 个 向 量 
分 别 代表 两 个 人 所 在 的 曼哈顿 街区 和 楼 层 : 向 量 的 差 就 是 从 其 中 一 个 位 置 到 另 一 个 位 置 需要 行走 
的 确切 方向 。 如 果 你 在 第 一 街 和 第 二 道 拐角 公寓 的 3 楼 , 那么 你 对 应 街 、 道 、 楼 层 的 坐标 就 是 [1， 
2，3] ， 就 和 上 例 中 一 样 。 如 果 你 的 Python 导师 在 第 四 街 和 第 五 道 拐角 公寓 的 6 楼 ， 那 么 她 的 
坐标 就 是 [4，5， 6] 。 所 以 ， 这 两 个 向 量 之 间 的 差 值 ( [3，3， 31] ) 表示 你 需要 向 北 走 3 个 街 
区 ,向 东 走 3 个 街区 ， 然 后 向 上 疏 3 个 楼 层 到 达 她 的 公寓 。 实 际 上 ， 向量 和 数学 并 不 关心 像 地 心 
引力 这 种 烦人 的 细节 。 因 此 ， 代 数学 假设 你 可 以 踏 着 窗户 外 面 “ 回 到 未 来 ”中 的 悬浮 滑板 上 ,在 
车 流 上 方 的 3 层 楼 高 处 快速 行驶 ， 然 后 到 达 线 性 代数 导师 的 公寓 

如 果 你 告诉 导师 她 的 公寓 和 你 的 公寓 的 距离 是 [3，3， 3] ， 她 会 嘲笑 这 个 思春 的 精确 率 。 
当 谈 论 距 离 时 ， 稍 微 聪 明 的 人 会 将 上 述 3 个 数字 简化 成 一 个 数字 ， 即 一 个 标量 。 所 以 ， 如 果 你 说 
她 的 位 置 有 6 个 街区 远 , 她 就 会 明白 你 的 意思 , 你 忽略 了 不 重要 的 楼 层 维度 ， 因 为 这 对 你 的 其 浮 
滑板 (或 电梯 ) 而 言 不 值 一 提 。 除 了 忽略 某 些 维度 ， 你 还 使 用 了 一 种 有 时 称 为 曼哈顿 距离 的 巧 
妙 的 距离 度量 。 后 面 ， 我 们 会 展示 如 何 计算 300 维 词 向 量 之 间 的 曼哈顿 距离 ， 就 像 计 算 二 维 公 
寓 位 置 向 量 一 样 容易 。 


1. 欧 几 里 得 距离 


当 提 到 “ 像 乌鸦 飞行 一 样 ”时 ， 我 们 说 的 就 是 二 维 向 量 的 欧 几 里 得 距离 ( 即 欧式 距离 )。 它 
是 由 向 量 定义 的 空间 中 两 个 点 之 间 的 直线 距离 〈 即 向 量 的 “尾部 ”或 “ 头 部 ”之 间 的 长 度 )。 
欧 几 里 得 距离 也 称 为 L2 范 数 ， 因 为 它 是 两 个 向 量 差 的 长 度 。L2 中 的 “L” 代 表 长 度 。L2 中 
的 “2” 表 示 在 对 这 些 值 求 和 之 前 ( 且 在 求 和 的 平方 根 之 前 ) 向 量 差 的 各 个 维度 对 应 的 指数 (平方 )。 
欧 几 里 得 距离 也 称 为 RSS 距离 ， 其 表示 距离 或 差 值 平方 和 的 平方 根 ， 即 : 


euclidean distance = np.sqrt(((vectorl - vector2) ** 2) .Sum()) 


下 面 我 们 看 一 下 在 Patrick Winston 的 AI 系列 讲座 中 提 到 的 一 个 NLP 示例 中 的 一 些 向 量 之 间 
的 欧 几 里 得 距离 。” 

假设 有 一 个 二 维 词 频 ( 词 袋 ) 向 量 ， 对 应 “hack” 和 “computer” 在 “Wired Magazine” 和 
“Town and Country” 两 个 杂志 的 文章 中 出 现 的 次 数 。 我 们 和 希望 能 够 在 研究 某 些 内 容 时 能 够 查询 这 
些 文章 ， 从 而 找到 有 关 特 定 主题 的 一 些 结果 。 查 询 字符 串 中 包含 “hacking” 和 “computers” 两 
个 词 。 对 于 词 “hack” 和 “computer”， 我 们 的 查询 字符 串 词 向 量 是 [1，1] ， 因 为 这 是 我 们 的 查 
询 经 过 分 词 和 词 干 还原 后 的 结果 ( 见 第 2 章 )。 
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@ Patrick Winston，6.034 人 工 智 能 ，2010 年 秋季 ， 麻 省 理工 学 院 : 麻 省 理工 开放 式 课程 。 协 议 : Creative 
Commons BY-NC-SA。 第 10 讲 。 
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现在 来 看 哪些 文章 与 我 们 的 查询 在 欧 几 里 得 距离 上 最 接近 。 欧 几 里 得 距离 是 图 C-1 中 4 条 线 
的 长 度 。 它 们 看 起 来 非常 接近 , 是 不 是 ?为 了 让 搜索 引擎 针对 此 查询 返回 一 些 有 用 的 文章 , 我 们 
该 如 何 解 决 这 个 问题 ? 





© e@ ; 
© ©® WiredMagazine 


computer 的 出 现 次 数 
号 
By 


© 
© @ Town and Country 
® 





hack 的 出 现 次 数 
图 C-1 欧 几 里 得 距离 的 计算 








我 们 可 以 计算 词 数 相对 于 文档 中 词 总 数 的 比率 , 并 基于 该 比率 计算 欧 几 里 得 距离 。 但 是 在 第 
3 章 中 我 们 已 经 学 了 更 好 的 计算 该 比率 的 方法 一 一 TF-IDF。TF-IDF 向 量 之 间 的 欧 几 里 得 距离 倾 
向 于 成 为 文档 距离 〈 逆 相似 性 ) 的 良好 衡量 标准 。 

如 果 要 使 用 限定 的 欧 几 里 得 距离 , 我 们 可 以 将 所 有 向 量 归 一 化 为 单位 长 度 ( 每 个 向 量 长 度 为 
1 )。 这 将 确保 所 有 向 量 之 间 的 距离 都 在 0 到 2 之 间 。 


2. 余弦 距离 


男 一 种 对 距离 计算 的 调整 使 我 们 的 距离 值 更 加 有 用 。 余 弦 距 离 是 余弦 相似 度 的 取 反 结 
(cosine distance = 1 - cosine similarity )。 余弦 相似 度 是 两 个 向 量 之 间 夹 角 的 余 
弦 。 因 此 ， 在 上 例 中 ， 查 询 字 符 串 的 TF 向 量 与 “Wired Magazine” 文 章 的 向 量 之 间 的 夹 角 远 小 
于 该 查询 与 “Town and Country” 文 章 之 间 的 夹 角 。 这 正 是 我 们 想 要 的 结果 。 因 为 查询 “hacking 
computers” 应 该 为 我 们 返回 “Wired Magazine” 杂 志 的 文章 ， 而 不 是 关于 骑马 (“hacking”)“"、 
打猎 、 晚 实 和 乡村 风格 的 室内 设计 等 娱乐 活动 的 文章 。 

该 距离 可 以 通过 计算 两 个 归 一 化 向 量 的 点 积 来 进行 有 效 计算 ， 归 一 化 向 量 即 每 个 向 量 均 除 以 
自己 的 长 度 ， 如 代码 清单 C-3 所 示 。 


代码 清单 C-3 ”余弦 距离 


>>> import numpy as np 

>>> Vector query = np.array([1，1]) 
>>> Vector tc = np.array([1，0]) 
>>> Vector_ wired = np.array([5，6]) 

















>>> normalized query = Vector gquery / np.linalg.norm(vector query) 
>>> normalized tc = vector tc / np.linalg.norm(vector tc) 





@ 详 见 维基 百科 文章 “Hack (horse)” 中 的 单词 “hack” 在 马术 领域 的 用 法 。 
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>>> normalized wired = vector wired / np.linalg.norm(vector wired) 


>>> normalized query 

array tl 070710678s 0..707106:718] 
>>> normalized tc 

array (tb Ls "0s 

>>> normalized wired 

array([ 0.6401844 ， 0.76822128] 


我 们 的 查询 TF 向 量 与 其 他 两 个 TF 向 量 之 间 的 余弦 相似 度 (向量 之 间 夹 角 的 余弦 ) 分 别 为 : 


>>> np.dot (normalized query, normalized tc) # cosine similarity 
0.70710678118654746 

>>> np.dot (normalized query, normalized wired) # cosine similarity 
0.99589320646770374 


我 们 的 查询 与 这 两 个 TF 向 量 之 间 的 余弦 距离 是 1 减 去 余弦 相似 度 ， 即 : 


>>> 1 - np.dot (normalized query, normalized tc) # cosine distance 
0.29289321881345254 

>>> 1 - np.dot (normalized query, normalized wired) # cosine distance 
0.0041067935322962601 


下 面 给 出 了 余弦 相似 性 用 于 计算 NLP 中 TF 向 量 相似 度 的 原因 

田 计算 简单 (只 需 乘法 和 加 法 ); 

田 有 一 个 方便 的 取 值 范围 ( -1 到 +1 ); 

四 其 取 反 (余弦 距离 ) 易于 计算 (1 - 余弦 相似 度 ); 

国 其 取 反 (余弦 距离 ) 有 界 (0 到 +2 )。 

然而 ， 与 欧 几 里 得 距离 相 比 ， 余 弦 距 离 有 一 个 缺点 : 它 不 是 真正 的 距离 度量 ， 因 为 此 时 三 
角形 不 等 式 并 不 成 立 。 这 意味 着 如 果 “red” 词 向 量 与 “car" 词 向 量 的 余弦 距离 为 0.5, 与 “apple” 
词 向 量 的 余弦 距离 为 03， 则 “apple” 和 “car” 的 距离 可 能 远 远 超过 0.8。 当 想 用 余弦 距离 来 
证 明 向 量 的 一 些 性 质 时 ， 三 角 不 等 式 是 很 重要 的 。 当 然 ， 在 实际 的 NLP 问题 中 很 少 会 出 现 这 
种 情况 。 


3. 曼哈顿 距离 


曼哈顿 距离 也 称 为 出 租车 距离 或 L1 范 数 。 之 所 以 称 为 出 租车 距离 ， 因 为 如 果 这 些 向 量 的 坐 
标 与 街道 网 格 对 齐 并 且 它 们 都 是 二 维 向 量 的 话 , 那么 该 距离 表示 出 租车 从 一 个 向 量 到 达 另 一 个 向 
量 需 要 行驶 的 距离 。 这 个 距离 也 称 为 L1 范 数 。 

曼哈顿 距离 计算 起 来 非常 简单 : 计算 所 有 维度 的 绝对 距离 的 和 。 使 用 我 们 前 面 虚构 的 杂志 所 
量 ， 曼 哈 顿 距 离 将 是 ; 


>>> Vector tc = np.array ([1, 0] 
>>> vector wired = np.array ([5, 6] 











































































































见 维基 百科 文章 “Cosine similarity”， 它 链接 到 真实 距离 度量 的 规则 。 
见 维基 百科 文章 “Taxicab geometry”。 
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>>> np.abs (vector tc - vector wiredq) .sum() 
10 


如 果 在 计算 曼哈顿 距离 之 前 对 向 量 进行 了 归 一 化 ， 则 计算 的 距离 会 有 很 大 差异 : 


>>> normalized tc = vector tc / np.linalg.norm(vector tc) 

>>> normalized wired = vector wired / np.linalg.norm(vector wired) 
>>> np.abs (normalized tc - normalized wired) .sum() 

1 2 


我 们 可 能 希望 这 个 距离 度量 限定 在 一 定 的 范围 内 ， 如 0 ~2, 但 它 并 不 会 如 此 。 与 欧 几 里 得 
距离 一 样 ， 曼哈顿 距离 是 一 个 真实 度量 ,因此 它 遵 从 三 角 不 等 式 , 并 且 可 以 用 于 依赖 真实 距离 度 
量 的 数学 证 明 中 。 但 是 与 归 一 化 向 量 的 欧 几 里 得 距离 不 同 , 我 们 不 能 指望 归 一 化 向 量 之 间 的 曼 哈 
顿 距离 保持 在 一 个 理想 的 范围 内 ， 如 0~2。 即 使 已 经 把 向 量 全 部 归 一 化 为 长 度 为 1 的 向 量 ， 曼 
哈 顿 距离 的 最 大 长 度 也 会 随 着 维 数 的 增加 而 增长 。 对 于 归 一 化 的 二 维 向 量 , 任意 两 个 向 量 之 间 的 
最 大 曼哈顿 距离 约 为 2.82〈 V8 )。 对 于 三 维 向量 ， 这 个 值 约 为 3.46( V12 )。 大 家 能 猜 出 或 计算 
出 四 维 向 量 所 对 应 的 值 吗 ? 
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许多 自然 语言 处 理 都 涉及 机 器 学 习 ， 所 以 理解 机 带 学 习 的 一 些 基 本 工具 和 技术 是 有 益处 的 。 
有 些 工 具 已 经 在 前 儿童 中 讨论 过 ， 有 些 还 没有 ， 但 这 里 我 们 会 讨论 所 有 这 些 工具 。 








0.1 数据 选择 和 避免 偏见 


数据 选择 和 特征 工程 会 带 来 偏见 的 风险 ( 用 人 类 的 话 来 说 )。 一旦 我 们 把 自己 的 偏见 融入 算 
法 中 ,通过 选择 一 组 特定 的 特征 ,模型 就 会 适应 这 些 偏见 并 产生 带 有 偏差 的 结果 。 如 果 我 们 足够 
幸运 能 在 投入 生产 之 前 发 现 这 种 偏见 ， 那么 也 需要 投入 大 量 的 工作 来 消除 这 种 偏见 。 例 如 ， 必 须 
重新 构建 和 重新 训练 整个 流水 线 ， 以 便 能 够 充分 利用 分 词 器 的 新 词汇 表 。 我 们 必须 重新 开始 。 

一 个 例子 是 著名 的 Word2vec 模型 的 数据 和 特征 选择 。Word2vec 是 针对 大 量 的 新 闻 报道 进行 
训练 的 ， 从 这 个 语料库 中 选择 了 大 约 100 万 个 n-gram 作为 这 个 模型 的 词汇 表 ( 特征 )。 它 产生 了 
一 个 使 数据 科学 家 和 语言 学 家 兴奋 的 模型 , 后 者 能 够 对 词 向 量 ( 如 “king - man + woman = queen”) 
进行 数学 运算 。 但 随 着 研究 的 深入 ， 在 模型 中 也 出 现 了 更 多 有 问题 的 关系 。 

例如 ， 对 于 “医生 - 父亲 + 母亲 = 护士 ”这 个 表达 式 ,“ 护 士 ”的 答案 并 不 是 人 们 希望 
的 无 偏见 和 合乎 逻辑 的 结果 。 人 性别 偏见 在 不 经 意 间 被 训练 到 模型 中 。 类 似 的 种 族 、 宗 教 甚至 地 理 
区 域 偏见 在 原始 的 Word2vec 模型 中 普遍 存在 。 谷 歌 公 司 的 研究 人 员 无 意 制造 这 些 人 和 偏见， 偏见 存 
在 于 数据 中 ， 即 他 们 训练 Word2vec 使 用 的 谷歌 新 闻 语料库 中 词 使 用 统计 的 数据 。 

许多 新 闻 报道 只 是 带 有 文化 偏见 ， 因 为 它们 是 由 记者 撰写 的 ， 目 的 是 让 读者 开心 。 这 些 记 
者 描写 的 是 一 个 存在 制度 偏见 和 现实 生活 中 人 们 对 待 事件 的 偏见 的 世界 。 谷 歌 新 闻 中 的 词 使 用 
统计 数据 仅仅 反映 的 是 , 在 母亲 当中 当 护士 的 数目 要 比 当 医生 的 多 得 多 ， 同 时 在 父亲 当中 当 医 
生 的 数目 比 当 护士 的 多 得 多 。Word2vec 模型 只 是 为 我 们 提供 了 一 个 窗口 , 让 我 们 了 解 我 们 创建 
的 世界 。 

幸运 的 是 ， 像 Word2vec 这 样 的 模型 不 需要 标记 训练 数据 。 因 此 ， 我 们 可 以 自由 选择 任何 喜 
欢 的 文本 来 训练 模型 。 我 们 可 以 选择 一 个 更 平衡 的 、 更 能 代表 大 家 希望 模型 做 出 的 信念 和 推理 的 
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数据 集 。 当 其 他 人 躲 在 算法 背后 说 他 们 只 是 按照 模型 做 事 时 ,我们 可 以 与 他 们 分 享 自己 的 数据 集 ， 
这 些 数据 集 更 公平 地 代表 了 一 个 社会 ， 在 这 个 社会 里 ， 我 们 渴望 为 每 个 人 提供 平等 的 机 会 。 

当 训 练 和 测试 模型 时 , 大 家 可 以 依靠 自己 天 生 的 公正 感 来 帮助 决定 一 个 模型 何 时 可 以 做 出 影 
响 用 户 生活 的 预测 。 如 果 得 到 的 模型 以 我 们 希望 的 方式 对 待 所 有 用 户 , 那么 我 们 可 以 在 晚上 睡 个 
好 觉 。 它 还 可 以 帮助 密切 关注 那些 与 大 家 不 同 的 用 户 的 需求 , 特别 是 那些 通常 处 于 社会 不 利 地 位 
的 用 户 。 如 果 需 要 更 正式 的 理由 来 证 明 自 己 的 行为 , 大 家 还 可 以 学 习 更 多 关于 统计 学 、 哲 学 、 伦 
理学 、 心 理学 、 行 为 经 济 学 和 人 类 学 的 知识 ， 来 增强 大 家 在 本 书 中 学 到 的 计算 机 科学 技能 。 

作为 一 名 自然 语言 处 理 实践 者 和 机 需 学 习 工 程 师 ， 大 家 有 机 会 训练 出 比 人 类 做 得 更 好 的 机 
顺 。 老板 和 同事 不 会 告诉 大 家 应 该 在 训练 集中 添加 或 删除 哪些 文本 , 大 家 自己 有 能 力 影响 塑造 整 
体 社区 和 社会 的 机 器 的 行为 。 

我 们 已 经 为 大 家 提供 了 一 些 关 于 如 何 组 装 一 个 带 有 更 少 偏见 和 更 公平 的 数据 集 的 想法 。 现 
在 ,我 们 将 展示 如 何 使 得 到 的 模型 与 无 偏见 数据 相 拟 合 ， 以 便 它们 在 现实 世界 中 精确 和 有 用 。 









































0.2 ”模型 拟 合 程度 


对 于 所 有 机 器 学 习 模型 ， 一 个 主要 的 挑战 是 克服 模型 过 度 优异 的 表现 。 什 么 是 “过 度 优异 ” 
呢 ? 在 处 理 所 有 模型 中 的 样本 数据 时 , 给 定 的 算法 都 可 以 很 好 地 在 给 定数 据 集中 找到 模式 。 但 是 
考虑 到 我 们 已 经 知道 训练 集中 所 有 给 定 样本 的 标签 〈 如果 不 知道 其 标签 表明 它 不 在 训练 集中 )， 
因此 算法 在 训练 样本 的 上 述 预 测 结果 不 会 特别 有 用 。 我 们 真正 的 目的 是 利用 这 些 训练 样本 来 构建 
一 个 有 泛 化 能 力 的 模型 ， 能 够 为 一 个 新 样本 打上 正确 标签 。 尽 管 该 样本 与 训练 集 的 样本 类 似 , 但 
是 它 是 训练 集 以 外 的 样本 。 在 训练 集 之 外 新 样本 上 的 预测 性 能 就 是 我 们 想 优化 的 目标 。 

我 们 称 能 够 完美 描述 ( 并 预测 ) 训练 样本 的 模型 “过 拟 合 ”( overfit ) ( 如 图 D-1 所 示 )。 这 
样 的 模型 将 很 难 或 没有 能 力 描述 新 数据 。 它 不 是 一 个 通用 的 模型 ， 当 给 出 一 个 不 在 训练 集中 的 样 
本 时 ， 很 难 相 信 它 会 做 得 很 好 。 




































































。 垃圾 消息 
® 四 . 


正 向 词 数 





es ee 所 
非 垃 圾 消息 "。 





停 用 词 数目 
图 D-1 训练 样本 上 的 过 拟 合 现象 


相反 ， 如 果 我 们 的 模型 在 训练 样本 上 做 出 了 许多 错误 的 预测 ， 并 且 在 新 样本 上 也 做 得 很 差 ， 
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则 称 它 “ 欠 拟 合 ”( underfit )〈 如 图 D-2 所 示 )。 在 现实 世界 中 ， 这 两 种 模型 都 对 预测 作用 不 大 。 
因此 , 下 面 看 看 哪些 技术 能 够 检测 出 上 述 两 种 拟 合 问题 , 更 重要 的 是 , 我们 还 会 给 出 一 些 避 免 上 
述 问题 的 方法 。 


人 
。 垃圾 消息 
nl 和 
荡 。。 
吗 国 
世 0 
月 | 一 一 决策 边界 
非 垃 级 消息 “。 ” 





停 用 词 数 目 
图 D-2 ”训练 样本 上 的 欠 拟 合 现象 





0.3 数据 集 划 分 


在 机 器 学 习 实践 中 ， 如 果 数 据 是 黄金 ， 那 么 标注 数据 就 是 raritanium ( 某 游 戏 里 的 一 种 珍贵 
资源 )。 我 们 的 第 一 直觉 可 能 是 获取 带 标 注 数据 并 把 它们 全 部 传递 给 模型 。 更 多 的 训练 数据 会 产 
生 更 有 弹性 的 模型 , 对 吧 ? 但 这 使 我 们 没有 办 法 测试 这 个 模型 ,只 能 心中 希望 它 在 现实 世界 中 能 
产生 好 的 结果 。 这 显然 是 不 切实 际 的 。 解 决 方案 是 将 带 标注 的 数据 拆 分 为 两 个 数据 集 ， 有 时 是 3 
个 数据 集 : 一 个 训练 集 、 一 个 验证 集 ， 在 某 些 情况 下 还 有 一 个 测试 集 。 

训练 集 是 显而易见 的 。 在 一 轮训 练 中 ， 验 证 集 是 我 们 保留 的 对 模型 隐藏 的 一 小 部 分 带 标 
注 数 据 。 在 验证 集 上 获得 良好 性 能 是 验证 经 过 训练 的 模型 在 训练 集 之 外 的 新 数据 上 表现 良好 
的 第 一 步 。 大 家 经 稼 会 看 到 将 一 个 给 定 的 标注 数据 集 按照 训练 与 验证 比 80%/20% 或 70%/30% 
进行 划分 。 测 试 集 类 似 于 验证 集 ， 也 是 带 标注 训练 数据 的 子 集 ， 用 于 测试 模型 并 度量 性 能 。 
但 是 这 个 测试 集 与 验证 集 有 什么 不 同 呢 ? 在 组 成 上 ， 它 们 其 实 没 有 任何 不 同 ， 区 别 在 于 使 用 
它们 的 方法 。 

在 训练 集 上 对 模型 进行 训练 时 ,会 有 若干 次 欠 代 , 迭代 过 程 中 会 有 不 同 的 超 参 数 。 我 们 选择 
的 最 终 模 型 将 是 在 验证 集 上 执行 得 最 好 的 模型 。 但 是 这 里 有 一 个 问题 ， 我 们 如 何 知道 自己 没有 
优化 一 个 仅仅 是 高 度 拟 合 验证 集 的 模型 ? 我 们 没有 办 法 验证 该 模型 在 其 他 数据 上 的 性 能 是 否 
良好 。 这 就 是 我 们 的 老板 或 论文 的 读者 最 感 兴趣 的 地 方 一 一 该 模型 在 他 们 的 数据 上 的 效果 到 底 
如 何 ? 

因此 ， 如 果 有 足够 的 数据 ， 需 要 将 标注 数据 集 的 第 三 部 分 作为 测试 集 。 这 将 使 我 们 的 读者 
(或 老板 ) 更 有 信心 ,确信 模型 在 训练 和 调 优 过 程 中 在 从 未 看 到 的 数据 上 也 可 以 获得 很 好 的 效果 。 
一 旦 根据 验证 集 性 能 选择 了 经 过 训练 的 模型 ,并且 不 再 训练 或 调整 模型 , 那么 就 可 以 对 测试 集中 
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的 每 个 样本 进行 预测 ( 推理 )。 假 如 模型 在 第 三 部 分 数据 上 表现 良好 , 那么 它 就 有 不 错 的 泛 化 性 。 

为 了 得 到 这 种 具有 高 可 信 度 的 模型 验证 , 大 家 经 常会 看 到 数据 集 按 照 60%/20%/20% 的 训练 /验证 / 

测试 比 进行 划分 的 情形 。 
提示 “在 对 数据 集 进行 训练 集 、 验 证 集 和 测试 集 的 划分 之 前 , 对 数据 集 进 行 重新 排序 是 非常 重要 的 。 
我 们 希望 每 个 数据 子 集 都 是 能 代表 “真实 世界 ”的 样本 ， 并 且 它 们 需要 与 期 望 看 到 的 每 个 标签 的 比 
大 致 相同 。 如 果 训练 集 有 25% 的 正 向 样本 和 75% 的 负 向 样本 , 那么 同样 也 希望 测试 集 和 验证 集 也 有 
25% 的 正 向 样本 和 75% 的 负 向 样本 。 如 果 原 始 数据 集 的 前 面 都 是 负 向 样本 ， 并 且 在 将 数据 集 划 分 为 
50%/50% 比 的 训练 集 /测试 集 前 没有 打 乱 数据 ， 那 么 在 训练 集中 将 得 到 100% 的 负 向 样本 ， 而 在 测试 
集中 将 得 到 50% 的 负 向 样本 。 这 种 情况 下 ,模型 永远 不 能 从 数据 集中 的 正 向 样本 中 学 习 。 








0.4 交叉 拟 合 训练 


另 一 个 划分 训练 集 / 测 试 集 的 方法 是 交叉 验证 或 者 磊 折 交叉 验证 (如 图 D-3 所 示 )。 交 叉 验 证 
背后 的 概念 和 我 们 刚 讨论 过 的 数据 划分 非常 相似 ， 但 是 它 允 许 使 用 所 有 的 带 标记 数据 集 进行 训 
练 。 这 个 过 程 将 训练 集 划分 为 上 等 分 ， 或 者 说 左 折 。 然 后 通过 将 大- 1 份 数 据 作为 训练 集训 练 模 
型 并 在 第 份 数 据 上 进行 验证 。 之 后 将 第 一 次 尝试 中 用 作 训 练 的 -1 份 数 据 中 的 一 份 数 据 作 为 
验证 集 ， 剩 下 的 -1 份 数据 成 为 新 训练 集 ， 进 行 重新 训练 。 

7 个 子 样本 集 (f=7) 
6 个 子 样本 集 
第 1 轮训 练 训练 训练 训练 训练 训练 训练 验证 





















































第 ?2 轮训 练 训练 

















训练 验证 训练 训练 





第 3 轮训 练 训练 








第 6 轮训 练 验证 














图 D-3 k 折 交叉 验证 


该 技术 对 于 分 析 模 型 的 结构 和 寻找 对 各 个 验证 数据 性 能 表现 良好 的 超 参数 具有 重要 价值 ,一 
旦 选择 了 超 参数 , 还 需要 选择 表现 最 好 的 经 过 训练 的 模型 ,因此 很 容易 受到 上 一 节 所 表述 的 偏见 
的 影响 ， 因 此 ， 在 此 过 程 中 仍然 建议 保留 一 份 测试 集 。 

这 种 方法 还 提供 了 关于 模型 可 靠 性 的 一 些 新 信息 。 我 们 可 以 计算 一 个 P 值 , 表示 模型 发 现 的 
输入 特征 和 输出 预测 之 间 的 关系 的 可 能 性 在 统计 上 是 显著 的 ， 而 不 是 随机 选择 的 结果 。 如 果 训练 
集 确实 是 真实 世界 的 代表 性 样本 ， 那 么 这 将 是 一 个 非常 重要 的 新 信息 。 
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这 种 对 模型 有 额外 信心 的 代价 是 ， 需 要 磊 倍 的 训练 时 间 来 进行 上 折 的 交叉 验证 。 所 以 ， 如 果 
想 要 得 到 关于 问题 的 90% 的 答案 , 通常 可 以 简单 地 做 1 折 交 叉 验 证 。 这 个 验证 方法 与 我 们 之 前 做 
的 训练 集 /验证 集 划分 方法 完全 相同 。 我 们 不 会 对 模型 这 个 对 真实 世界 的 动态 描述 的 可 靠 性 有 
100% 的 信心 ， 但 是 如 果 它 在 测试 集中 表现 良好 ， 也 可 以 非常 自信 地 认为 它 是 预测 目标 变量 的 有 
用 模型 。 所 以 通过 这 种 实用 方法 得 到 的 机 器 学 习 模 型 对 大 多 数 商 业 应 用 来 说 都 是 有 意义 的 。 





























0.5 ”抑制 模型 


在 model .fit() 中 , 梯度 下 降 过 分 热衷 于 追求 降低 模型 中 可 能 出 现 的 误差 。 这 可 能 导致 过 
拟 合 ， 即 学 到 的 模型 在 训练 集 上 效果 很 好 , 但 是 在 新 的 未 见 样 本 集 ( 测试 集 ) 上 却 效果 很 差 。 
此 ,我们 可 能 希望 “保留 ”对 模型 的 控制 。 以 下 是 3 种 方法 : 

田 正则 化 ; 

图 ”随机 dropout; 

田 批 归 一 化 。 






































D.5.1 正则 化 


在 所 有 机 需 学 习 模 型 中 ， 最 终 都 会 出 现 过 拟 合 。 幸 运 的 是 ， 有 几 种 工具 可 以 解决 这 个 问题 。 
第 一 个 是 正则 化 ， 它 是 对 每 个 训练 步骤 的 学 习 参数 的 和 惩罚 。 它 通常 但 不 总 是 参数 本 身 的 一 个 因子 。 
其 中 ，L1 范 数 和 1L2 范 数 是 最 常见 的 做 法 。 

L1 正则 化 : 





















































n 
+42 hw, | 
i=1 


L1 是 所 有 参数 ( 权重 ) 的 绝对 值 与 某 个 4 ( 超 参数 ) 乘积 的 和 , 通常 是 0 到 1 之 间 的 一 个 小 
浮上 点数。 这 个 和 应 用 于 权重 的 更 新 一 一 其 思想 是 ， 较 大 的 权重 会 产生 较 大 的 惩罚 ， 因 此 鼓励 模型 
使 用 更 多 的 、 均 匀 的 权重 …… 

L2 正则 化 : 























n 
+142 | 
i=] 


类 似 地 ，L2 是 一 种 权重 惩罚 ， 但 定义 略 有 不 同 。 这 种 情况 下 ， 它 是 权重 的 平方 与 某 个 1 乘 
积 的 和 ， 这 个 4 值 是 一 个 要 在 训练 前 选择 的 单独 超 参 数 。 

















D.5.2 dropout 














在 神经 网 络 中 ，dropout 是 另 一 个 解决 过 拟 合 的 办 法 一 一 乍 一 看 似乎 很 神奇 。droponut 的 概念 
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是 , 在 神经 网 络 的 任何 一 层 , 我 们 都 会 在 训练 的 时 候 , 按 一 定 比例 关闭 通过 这 一 层 的 信号 。 注意 ， 
这 只 发 生 在 训练 期 间 ， 而 不 是 推理 期 间 。 在 所 有 训练 过 程 中 ,网 络 层 中 一 部 分 神经 元 子 集 都 会 被 
“忽略 ”， 这 些 输出 值 被 显 式 地 设置 为 零 。 因 为 它们 对 预测 结果 没有 输入 ,所 以 在 反 向 传播 步骤 中 
不 会 进行 权重 更 新 。 在 下 一 个 训练 步骤 中 ， 将 选择 层 中 不 同 权 重 的 子 集 ， 并 将 其 他 权重 归 零 。 

一 个 在 任何 时 间 都 有 20% 处 于 关闭 状态 的 大 脑 的 网 络 该 如 何 学 习 呢 ? 其 思想 是 , 没有 一 个 特 
定 的 权重 路 径 可 以 完全 定义 数据 的 特定 属性 。 该 模型 必须 泛 化 其 内 部 结构 ， 以 便 该 模型 通过 神经 
元 的 多 条 路 径 都 能 够 处 理 数 据 。 

被 关闭 的 信号 的 百分比 被 定义 为 超 参数 , 因为 它 是 一 个 介 于 0 和 ]1 之 间 的 浮 点 数 。 在 实践 中 ， 
从 0.1 到 0.5 的 dropout 通常 是 最 优 的 ， 当 然 ， 这 是 依赖 模型 的 。 在 推理 过 程 中 ，droponut 会 被 忽 
略 ， 从 而 充分 利用 训练 后 的 权 值 对 新 数据 进行 处 理 。 

Keras 提供 了 一 种 非常 简单 的 实现 方法 ， 可 以 在 本 书 的 示例 和 代码 清单 D-1 中 看 到 。 



































代码 清单 D-1 Keras 中 的 dropout 层 会 减少 过 拟 合 





>>> from keras.models import Sequential 
>>> from keras.layers import Dropout, LSTM, Flatten, Dense 




















>>> maxlen = 100 
>>> embedding dims = 300 
>>> model = Sequential () 


>>> num neurons = 20 > 的 超 参数 


>>> model.add (LSTM (num neurons, return sequences=True, 
input_ shape= (maxlen, embedding dims))) 











>>> model.add (Dropout (.2)) 

这 里 的 .2 是 超 参 数 ， 因 此 LSTM 
>>> model.add (Flatten ()) 层 中 20% 的 输出 会 被 置 为 0， 从 
>>> model.add (Dense (1，activation='sigmoid')) | 而 被 忽略 


D.5.3 批 归 一 化 


神经 网 络 中 一 个 称 为 批 归 一 化 的 新 概念 可 以 帮助 对 模型 进行 标准 化 和 泛 化 , 批 归 一 化 的 思想 
是 , 与 输入 数据 非常 相似 , 每 个 网 络 层 的 输出 应 该 归 一 化 为 0 到 1 之 间 的 值 。 关于 如 何 、 为什么、 
什么 时 候 这 样 做 是 有 益 的 ,以 及 在 什么 条 件 下 应 该 使 用 它 , 仍然 存在 一 些 争 议 。 我 们 希望 大 家 自 
己 去 对 这 个 研究 方向 进行 探索 。 

但 是 Keras 的 BatchNormalization 层 提供 了 一 个 简单 的 实现 方法 , 如 代码 清单 D-2 所 示 。 








代码 清单 D-2” 归 一 化 BatchNormalization 





>>> from keras.models import Sequential 
>>> from keras.layers import Activation Dropout, LSTM, Flatten, Dense 
>>> from keras.layers.normalization import BatchNormalization 


>>> model = Sequential () 
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>>> model.add (Dense (64, input dim=14)) 

>>> model.add (BatchNormalization ()) 

>>> model.add (Activation('sigmoid')) 

>>> model.add (Dense (64, input dim=14)) 

>>> model.add (BatchNormalization ()) 

>>> model.add (Activation('sigmoid')) 

>>> model.add (Dense (1, activation='sigmoid')) 


0.6 非 均 衡 训练 集 


机 器 学 习 模型 的 好 坏 取决 于 提供 给 它们 的 数据 。 只 有 当 样 本 中 涵盖 了 和 希望 在 预测 阶段 的 所 有 
情况 时 ,拥有 大 量 的 数据 才 有 帮助 ， 并且 数据 集 涵盖 每 种 情况 仅仅 一 次 是 不 够 的 。 想 象 一 下 我 们 
正 试图 预测 一 副 图 像 到 底 是 一 只 狗 还 是 一 只 猫 。 这 时 我 们 手 里 有 一 个 训练 集 ， 里 面包 含 20 000 
张 猫 的 照片 , 但 是 狗 的 照片 只 有 200 张 。 如 果 要 在 这 个 数据 集中 训练 一 个 模型 ， 那么 这 个 模型 很 
可 能 只 是 简单 地 学 会 将 任何 给 定 的 图 像 都 预测 为 一 只 猫 , 而 不 管 输入 是 什么 。 从 模型 的 角度 来 说 ， 
这 个 结果 还 可 以 接受 ， 对 不 对 ? 我 的 意思 是 ， 对 99% 的 训练 样本 的 预测 结果 都 是 正确 的 。 当 然 ， 
这 个 观点 实际 完全 站 不 住 脚 这 个 模型 毫 无 价值 。 但 是 ,完全 超出 了 特定 模型 的 范围 之 外 ,造成 
这 种 失败 的 最 可 能 原因 是 非 均衡 训练 集 

模型 可 能 会 非常 关注 训练 集 ， 其 原因 很 简单 来 自 标 记 数 据 中 过 采样 类 的 信号 会 压倒 来 自从 
采样 类 的 信号 。 权 重 将 更 经 常 地 由 主 类 信号 的 误差 进行 更 新 ， 而 来 自 小 类 的 信号 将 被 忽视 。 获 得 
每 个 类 的 绝对 均匀 表示 并 不 重要 ,因为 模型 自己 能 够 克服 一 些 噪 声 。 这 里 的 目标 只 是 让 类 的 比例 
达到 均衡 水 平 。 

与 任何 机 器 学 习 任务 一 样 ， 第 一 步 是 长 时 间 、 仔 细 地 查看 数据 ， 了 解 一 些 细节 ， 并 对 数据 实 
际 表示 的 内 容 进行 一 些 粗略 的 统计 。 不 仅 要 知道 有 多 少数 据 ， 还 要 知道 有 多 少 种 类 的 数据 。 

那么 ， 如 果 事 情 从 一 开始 就 没有 特别 之 处 ， 大 家 会 怎么 做 呢 ?” 如 果 目 标 是 使 类 的 表示 均匀 ( 确 
实 如 此 )， 则 有 3 个 主要 方法 可 供 选 择 : 过 采样 、 欠 采 样 和 数据 增强 ， 














































































































D.6.1 过 采样 


过 采样 是 一 种 重复 采样 来 自 一 个 或 多 个 欠 表 示 类 的 样本 的 技术 。 我 们 以 先前 的 狗 / 猫 分 类 示 
例 为 例 (只 有 200 只 狗 ， 有 20 000 只 猫 )。 我 们 可 以 简单 地 重复 100 次 已 有 的 200 张 狗 的 图 像 ， 
最 终 得 到 40 000 个 样本 ， 其 中 一 半 是 狗 ， 一 半 是 猫 。 

这 是 一 个 极端 的 例子 ， 因 此 会 导致 自身 固有 的 问题 。 这 个 网 络 很 可 能 会 很 好 地 识别 出 这 200 
只 特定 的 狗 , 而 不 能 很 好 地 推广 到 其 他 不 在 训练 集中 的 狗 。 但是, 在 不 那么 极端 不 平衡 的 情况 下 ， 
过 采样 技术 肯定 有 助 于 平衡 训练 集 。 




















D.6.2 ” 欠 采 样 
欠 采 样 是 同一 枚 硬币 的 反面 。 在 这 里 ， 就 是 从 过 度 表示 的 类 中 删除 部 分 样本 。 在 上 面 的 猫 / 
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狗 示 例 中 ， 我 们 将 随机 删除 19 800 张 猫 的 图 片 ， 这 样 就 会 剩 下 400 个 样本 ， 其 中 一 半 是 狗 ， 一 
半 是 猫 。 当 然 ， 这样 做 本 身 也 有 一 个 突出 的 问题 ， 就 是 我 们 抛弃 了 绝 大 多 数 的 数据 ， 而 只 在 一 个 
不 那么 宽泛 的 数据 基础 上 进行 研究 。 上 述 例子 中 这 样 的 极端 做 法 并 不 理想 , 但 是 如 果 欠 表示 类 本 
身 包 含 大 量 的 样本 , 那么 上 述 极端 做 法 可 能 是 一 个 很 好 的 解决 方案 。 当 然 , 拥有 这 么 多 数据 绝对 
是 太 和 奢侈 了 。 








D.6.3 ”数据 增强 


数据 增强 有 点 儿 环 手 , 但 在 适当 的 情况 下 它 可 以 给 我 们 带 来 帮助 。 增 强 的 意思 是 生成 新 的 数 
据 , 或 者 从 现 有 数据 的 扰动 中 生成 , 或 者 重新 生成 。AffNIST 就 是 这 样 一 个 例子 。 著 名 的 MNIST 
数据 集 由 一 组 手写 的 0 ~ 9 数字 组 成 (如 图 D-4 所 示 )。AffNIST 在 保留 原始 标签 的 同时 ， 以 各 种 
方式 对 每 个 数字 进行 倾斜 、 旋 转 和 缩放 。 





























图 D-4 最 左 侧 列 中 的 条 目 是 原始 MNIST 中 的 样本 ， 其 他 列 都 是 经 仿 射 
转换 后 包含 在 affNIST 中 的 数据 ( 图 片 经 “affNIST” 授 权 ) 








这 种 特别 的 做 法 的 目的 并 不 是 平衡 训练 集 , 而 是 使 像 卷 积 神经 网 络 一 样 的 网 络 对 以 其 他 方式 
编写 的 新 数据 更 具 弹 性 ， 但 这 里 数据 增强 的 概念 仍然 适用 。 

不 过 , 大 家 必须 小 心 , 添加 不 能 真正 代表 待 建 模 型 数据 的 数据 有 可 能 次 大 于 利 。 假设 数据 集 
是 之 前 的 200 只 狗 和 20 000 只 猫 组 成 的 图 片 集 。 我 们 进一步 假设 这 些 图 像 都 是 在 理想 条 件 下 拍 
摄 的 高 分 辨 率 彩色 图 像 。 现 在 ,给 19 000 名 幼儿 园 教师 一 盒 蜡笔 并 不 一 定 能 得 到 想 要 的 增强 数 
据 。 因此 , 考虑 一 下 增强 的 数据 会 对 模型 产生 什么 样 的 影响 ,答案 并 不 是 在 任何 时 候 都 清晰 无 比 ， 
所 以 如 果 一 定 要 沿 着 这 条 路 径 走 下 去 的 话 , 在 验证 模型 时 请 记 住 模型 的 影响 这 一 点 , 并 努力 围绕 
其 边缘 进行 测试 ， 以 确保 没有 无 意 中 引 入 意外 的 行为 。 

最 后 ， 再 说 一 件 可 能 价值 最 小 的 事情 ， 但 这 的 确 是 事实 : 如果 数据 集 “ 不 完整 "， 那 么 首先 
应 该 考虑 回 到 原来 的 数据 源 中 寻找 额外 的 数据 。 这 种 做 法 并 不 总 是 可 行 , 但 至 少 应 该 把 它 当 作 一 
种 选择 。 
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0.7 性 能 指标 


任何 机 器 学 习 流水 线 中 最 重要 的 部 分 都 是 性 能 指标 。 如 果 不 知道 学 到 的 机 器 学 习 模 型 运行 得 
有 多 好 ， 就 无 法 让 它 变 得 更 好 。 当 启动 机 器 学 习 流水 线 时 ， 要 做 的 第 一 件 事 是 在 任何 sklearn 机 
器 学 习 模型 上 设置 一 个 性 能 度量 方法 ， 例 如 “.score0”。 然 后 我 们 构建 一 个 完全 随机 的 分 类 /回归 
流水 线 ， 并 在 最 后 计算 性 能 分 数 。 这 使 我 们 能 够 对 流水 线 进 行 增 量 式 改 进 ， 从 而 逐步 提高 分 数 ， 
以 便 更 接近 最 终 的 目标 。 这 也 是 让 老板 和 同事 确信 大 家 走 在 正确 的 轨道 上 的 好 方法 。 














D.7.1 分 类 的 衡量 指标 


对 分 类 器 而 言 ， 我 们 希望 它 做 对 两 件 事 : 一 是 用 类 标签 标记 真正 属于 该 类 的 对 象 , 二 是 不 用 
这 个 标签 去 标记 不 属于 此 类 的 对 象 。 这 两 件 事 对 应 得 到 的 正确 计数 值 分 别称 为 真 阳 〈true positive ) 
和 真 阴 (true negative )。 如 果 有 一 个 numpy 数组 包含 模型 分 类 或 预测 的 所 有 结果 , 那么 就 可 以 计 
算出 正确 的 预测 结果 ， 如 代码 清单 D-3 所 示 。 














代码 清单 D-3 ”计算 模型 得 到 的 正确 结果 





y_true 是 存储 true( 正确 类 标签 的 numpy y_pred 是 存储 模型 预测 出 的 类 


























数组 。 通 常 这 些 都 是 由 人 决定 的 标签 (0 或 1) 的 numpy 数组 

3 
> pred 三 
>>> true positives = ((y pred == y true) & (y pred == 1)).sum() 
es true_positives 是 模型 在 正 向 类 ( 正确 的 类 标签 为 1 ) 

上 预测 正确 ( 预测 的 类 标签 也 为 1 ) 的 样本 数目 
>>> true negatives = ((y pred == y true) & (y_pred == 0)) .sum() 
>>> 七 蕊 3 SS 
和 true_negatives 是 在 负 向 类 (正确 的 类 标签 为 0 ) 

上 预测 正确 ( 预测 的 类 标签 也 为 0 ) 的 样本 数目 


通常 而 言 ， 对 模型 预测 错误 的 计数 也 很 重要 ， 如 代码 清单 D-4 所 示 。 


代码 清单 D-4 计算 模型 得 到 的 错误 结果 











>>> false positives = ((y pred != y true) & (y pred == 1)) .sum() 

>>> false positives 4 

3 

>>> false negatives = ((y pred != y true) & (y pred == 0)) .sum() 

>>> false negatives 

1 false_negatives 是 被 模型 错误 地 标记 为 负 false_positives 是 被 模型 错误 地 标记 为 正 
向 类 的 负 类 样本 数目 它们 的 类 标签 应 该 。。” 向 类 的 负 向 类 样本 数目 ( 它们 的 类 标签 应 
为 1 时 却 预测 为 0) SO 





有 了 时， 这 4 个 数 合并 成 一 个 4 x 4 和 矩阵， 称 为 误差 矩阵 或 混淆 矩阵 。 代 码 清单 D-5 给 出 了 混 
淆 适 阵 中 预测 值 和 真实 值 的 样子 。 
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代码 清单 D-5 混淆 矩阵 





>>> confusion = [[true positives, false positives], 
ee [false negatives, true negatives]] 
>>> confusion 
[[4, 3], [1, 2]] 
>>> import pandas as pd 

>>> confusion = pd.DataFrame (confusion, columns=[1, 0], index=[1, 0]) 
>>> confusion.index.name = r'pred \ truth' 

>>> confusion 


十 0 
pred \ truth 
4 1 
0 e: 2 


在 混淆 矩阵 中 , 我 们 希望 对 角 线 ( 左上 角 和 右 下 角 ) 上 的 数字 较 大 , 希望 对 角 线 外 的 数字 ( 左 
上 角 和 左下 角 ) 较 小 。 然 而 ， 正 向 类 和 负 向 类 的 顺序 是 任意 的 ， 所 以 有 时 可 能 会 看 到 这 个 表 的 数 
字 被 调换 了 位 置 。 请 始终 标记 好 混淆 矩阵 的 列 和 下 标 。 有 时 可 能 会 听 到 统计 学 家 把 这 个 矩阵 称 为 
分 类 器 列 联 表 ， 但 如 果 坚 持 使 用 “混淆 矩阵 ”这 个 名 字 的 话 ， 就 可 以 避免 混淆 。 

对 于 机 器 学 习 分 类 问题 , 有 两 种 有 用 的 方法 可 以 将 这 4 种 计数 值 中 的 一 些 指标 组 合成 一 个 性 
能 指标 : 正确 率 (precision ) 和 召回 率 (recall )。 信 息 检 索 (搜索 引擎 ) 和 语义 搜索 就 是 此 分 类 
问题 的 例子 ， 因 为 那里 的 目标 是 将 文档 分 为 ( 和 输入 查询 ) 匹配 或 不 匹配 两 类 。 第 2 章 中 , 我 们 
学 习 过 词 干 还 原 和 词 形 归 并 如 何 能 够 提高 召回 率 ， 但 同时 降低 了 正确 率 。 

正确 率 度量 的 是 模型 在 检测 所 感 兴趣 类 的 所 有 对 象 ( 称 为 正 向 类 ) 的 能 力 ， 因 此 它 也 被 称 为 
正 向 预测 值 (positive predictive value )。 由 于 真 阳 是 预测 正确 的 正 向 类 样本 数目 ， 而 假 阳 是 错误 地 
标记 为 正 向 类 的 负 向 类 样本 数目 ， 因 此 可 以 按照 代码 清单 D-6 所 示 来 计算 正确 率 。 








代码 清单 D-6 正确 率 





>>> precision = true positives / (true positives + false positives) 
>>> precision 


0 
上 述 例子 中 的 混淆 矩阵 给 出 了 约 57% 的 正确 率 ， 因 为 在 所 有 预测 为 正 向 类 的 样本 中 有 约 57% 
是 正确 的 。 


召回 率 和 正确 率 类 似 , 它 也 被 称 为 灵敏 度 、 真 阳 率 或 查 全 率 。 因 为 数据 集中 的 样本 总 数 是 真 
阳 (true positive ) 和 假 阴 (false negative ) 的 和 ， 所 以 可 以 计算 召回 率 ， 即 检测 到 的 预测 正确 的 
正 向 类 样本 占 所 有 样本 的 百分比 ， 代 码 如 代码 清单 D-7 所 示 。 


代码 清单 D-7 ”召回 率 


>>> recall = true positives / (true positives + false negatives) 
>>> recall 
0.8 


这 就 是 说 上 面 例子 中 得 到 的 模型 检测 到 了 数据 集中 80% 的 正 向 类 样本 。 
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D.7.2 回归 的 衡量 指标 


用 于 机 器 学 习 回 归 间 题 的 两 个 最 常见 的 性 能 评价 指标 是 均 方 根 误差 ( RMSE ) 和 皮尔 逊 相关 
系数 (R? )。 事实 证明, 分 类 问题 背后 实际 上 是 回归 问题 。 因此 ,如 果 类 标签 已 经 转换 为 数字 ( 就 
像 我 们 在 上 一 节 中 所 做 的 那样 )， 就 可 以 在 其 上 使 用 回归 度量 方法 。 下 面 的 代码 示例 将 复 用 上 
节 的 那些 预测 值 和 真实 值 。RMSE 对 于 大 多 数 问题 是 最 有 用 的 , 因为 它 给 出 的 是 预测 值 与 真实 值 
可 能 的 相差 程度 。RMSE 给 出 的 是 误差 的 标准 偏差 ， 如 代码 清单 D-8 所 示 。 


代码 清单 D-8 ” 均 方 根 误差 ( RMSE ) 


>>> y true = np.array ([0, 0, 0, 1, 1, 1, 1, 1, 1, 1]) 
>>> y_pred = np.array ([0, 0, 1, 1, 1, 1, 1, 0, 0, 0]) 
>>> rmse = np.sqrt((y true - y pred) ** 2) / len(y true)) 
>>> rmse 

08632 5 


皮尔 逊 相关 系数 是 回归 函数 的 男 一 个 常见 性 能 指标 。sklearn 模块 默认 将 其 作为 .score () 
函数 附加 到 大 多 数 模 型 上 。 如 果 大 家 不 清楚 这 些 指标 如 何 计算 的 话 , 那么 应 该 手动 计算 一 下 找 找 
感觉 。 相 关系 数 的 计算 参见 代码 清单 D-9。 


代码 清单 D-9 ”相关 系数 


>>> corr = pd.DataFrame ([y true, y pred]).T.corr() 

22S COEELONEN 

0 下 8 

>>> np.mean((y pred - np.meanl(ly pred)) * (y true - np.mean(y true))) / 
np.std(y pred) / np.stdly true) 

















0 2L8.. 8 


由 此 可 见 我 们 的 样本 预测 值 与 真实 值 的 相关 度 只 有 28%。 


0.8 ”专业 技巧 


一 旦 掌握 了 基本 知识 ， 那 么 下 面 这 些 简单 的 技巧 将 有 助 于 更 快 地 建立 良好 的 模型 ， 

使 用 数据 集中 的 一 个 小 的 随机 样本 子 集 来 发 现 流水 线 的 可 能 缺陷 ; . 

当 准 备 将 模型 部 署 到 生产 环境 中 时 ， 请 使 用 所 有 的 数据 来 训练 模型 ; 

首先 应 该 尝试 自己 最 了 解 的 方法 ， 这 个 技巧 也 适用 于 特征 提取 和 模型 本 身 ; 

在 低 维特 征 和 目标 上 使 用 散 点 图 和 散 点 和 矩阵， 以 确保 没有 遗漏 一 些 明显 的 模式 ; 

绘制 高 维 数据 作为 原始 图 像 ， 以 发 现 特征 的 转移 ; 

当 希 望 最 大 化 向 量 对 之 间 的 差异 时 ,可 以 尝试 对 高 维 数据 使 用 PCA (对 NLP 数据 使 用 LSA ); 
































Q@ 时 序 训练 集 通 常会 随 着 时 间 的 推移 或 延迟 而 生成 。 在 隐藏 数据 源 的 Kaggle 竞赛 中 ， 发 现 这 一 点 会 对 大 家 
有 所 帮助 ， 例 如 在 比赛 Santander Value Prediction competition 中 。 
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图 ” 当 希 望 在 低 维 空间 中 进行 回归 或 者 寻找 匹配 的 向 量 对 时 , 可 以 使 用 非 线 性 降 维 , 如 t-SNE; 
国 构建 一 个 sklearn .Pipeline 对 象 ， 以 提高 模型 和 特性 提取 器 的 可 维护 性 和 可 复 用 性 ; 
图 使 超 参数 的 调 优 实现 自动 化 , 这样 模型 就 可 以 了 解数 据 ， 大 家 就 可 以 花 时 间 学 习 机 咒 
学 习 。 

超 参 数 调 优 ，” 超 参数 是 所 有 那些 确定 流水 线性 能 的 值 ， 包 括 模 型 类 型 及 其 配置 方式 等 。 超 参数 还 可 

以 是 神经 网 络 中 包含 的 神经 元 数 和 层 数 ,或 者 是 sklearn.linear _model.Rigdge 上 岭 回归 模型 中 

的 alpha 值 。 超 参数 还 包括 控制 所 有 和 预 处 理 步骤 的 值 ， 例 如 分 词类 型 、 所 有 忽略 的 词 列 表 、TF-IDF 
词汇 表 的 最 小 和 最 大 文档 频率 、 是 否 使 用 词 形 归并 、TF-IDF 归 一 化 方法 等 。 


超 参数 调 优 可 能 是 一 个 十 分 缓慢 的 过 程 , 因为 每 个 实验 都 需要 训练 和 验证 一 个 新 模型 。 因 此 ， 
在 搜索 范围 广泛 的 超 参数 时 , 我 们 需要 将 数据 集 减 小 到 具有 代表 性 的 最 小 样本 集 。 当 搜索 接近 满 
足 需 求 的 最 终 模 型 时 ， 可 以 增加 数据 集 的 大 小 ， 以 使 用 尽 可 能 多 的 所 需 数据 。 

优化 流水 线 的 超 参数 是 提高 模型 性 能 的 方法 。 实现 超 参 数 调 优 自动 化 可 以 节省 更 多 的 时 间 来 
阅读 本 书 这 样 的 书籍 , 或 者 可 视 化 和 分 析 最 后 的 结果 。 当 然 大 家 仍然 可 以 通过 直觉 设置 要 尝试 的 
超 参 数 范 围 来 指导 调 优 。 

提示 超 参 数 调 优 最 有 效 的 算法 是 ( 从 最 好 到 最 差 ): 

(1) 贝 叶 斯 搜索 ; 

(2 ) 遗传 算法 ; 

(3 ) 随机 搜索 ; 

(4) 多 分 辨 率 网 格 搜索 ; 

(5 ) 网 格 搜 索 。 

但 是 无 论 如 何 ， 在 大 家 进入 梦乡 时 工作 的 所 有 计算 机 搜索 算法 ， 都 比 手动 猜测 一 个 个 新 参数 好 。 
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如 果 想 快速 训练 或 使 用 NLP 流水 线 ， 那么 带 有 GPU 的 服务 器 通常 可 以 用 于 加 速 。 当 
使 用 Keras (TensorElow 或 Theano )、PyTorch 或 caffe 等 框架 构建 模型 时 ，GPU 尤 
其 擅长 训练 深度 神经 网 络 。 这 些 计算 图 框架 可 以 充分 利用 为 GPU 构建 的 大 规模 并 行 乘法 
和 加 法 运算 。 

如 果 大 家 不 想 花 时 间 和 金钱 来 构建 自己 的 服务 器 ， 那 么 云 服 务 是 一 个 很 好 的 选择 。 但 
是 ， 用 GPU 构建 一 个 服务 器 的 速度 可 能 是 使 用 类 似 AWS ( Amazon Web Services ) 服务 器 
的 两 倍 ， 而 在 一 个 类 似 AWS 实例 上 需要 花费 大 约 一 个 月 的 时 间 。 男 外 ,可 以 使 用 更 紧密 的 
耦合 方式 (更 高 的 带宽 ) 来 存储 更 多 的 数据 ,并 且 通 常 可 以 获得 比 单个 AWS EC2 实例 更 多 
的 内 存 。 

有 了 AWS， 就 可 以 快速 启动 和 运行 ， 而 无 须 维护 自己 的 存储 设备 和 服务 器 。 此 外 ， 大 多 数 
云 服 务 提供 预 配置 的 硬盘 镜像 (ISO )， 这 比 配置 自己 的 服务 器 启动 和 运行 更 快 。 对 于 生产 环境 ， 
像 AWS 或 谷歌 云 服 务 ( Google Cloud Services ) 这 样 的 云 提 供 商 ( Azure 仍 在 追赶 ) 仍 是 有 意义 
的 。 而 对 于 测试 和 实验 ， 大 家 需要 自力 更 生 搭 建 一 个 环境 。 



































































































































创建 AWS GPU 实例 的 步骤 


(1 ) 登录 AWS 官方 网 站 注册 账户 或 登录 现 有 账户 。 登 录 账 户 后 ， 转 到 AWS 管理 控制 台 ， 
如 图 E-1 所 示 。 

(2 ) 在 所 有 服务 项 下 选择 EC2, 你 还 可 以 在 页 面 顶 部 的 Services 菜单 中 找到 EC2 服务 。EC2 
指示 板 提供 了 关于 现 有 EC2 实例 的 摘要 信息 ( 如 图 E-2 所 示 )。 

(3 ) 在 EC2 指示 板 中 ， 单 击 蓝 色 启动 实例 按钮 以 启动 实例 设置 向 导 ， 大 家 可 以 在 这 一 系列 
界面 上 配置 要 启动 的 虚拟 机 。 
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E-1 AWS 管理 控制 合 
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Target Groups @ us veet? Splunk Insights for AWS Cloud 


Monitoring 
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图 E-2 创建 一 个 新 的 AWS 实例 
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(4 ) 这 个 界面 上 (如 图 E-3 所 示 ) 显示 了 可 以 安装 上 在 虚拟 机 上 的 服务 器 硬盘 镜像 或 ISO。 它 们 在 
亚马逊 被 称 为 亚马逊 机 器 镜像 (Amazon Machine Images，AMI ) ”。 有 些 AMIs 已 经 安装 了 深度 学 习 框 
架 ， 这 样 ， 就 不 需要 安装 和 配置 CUDA 和 BLAS 库 或 诸如 TensorFlow、numpy 和 Keras 之 类 的 
Python 包 。 要 找到 一 个 预先 配置 好 的 免费 深度 学 习 AMI, 单 击 左 侧 的 Amazon Marketplace 或 Community 
AMIs 选项 卡 ， 搜 索 “ 深 度 学 习 ””。 仍然 必 须 配 置 使 用 给 定 AMI 提供 的 所 有 软件 特性 的 硬件 。 











国 Ec2 ManagementConsole XX 





ba @ 会 ©@ https://us-west-2.console.aws.amazon.com/ec2/v2/home?region=us-west-2#LaunchinstanceV 下 加 六 | Mn 
aws Services v Resource Groups v 
.Chooso AMI 2.Chooso netancs pe 。 3.Configu Inst Addstonge S.AddTags 6.ConfgureSocuriyGroup 7.Rovew 
Step 1: Choose an Amazon Machine Image (AMD Sn 


An AMl is a template that contains the software 
user community or the AWS Mai a 






and applications) required to launch your instance. You can select an AMI provided by AWS, our 








Quick Start 1to25 of 35 Products > 小 
| Q Deep Leamind X 
My AMIs 
Trend Micro Deep Security [ select | 
AWS Marketplace 属 TB8 
人 机 机 二 证 | Deep Security 101 Previous versions |Sold by Tend Micro 
Community AMI 








ie image (AMD | Updated: 7/13117 
~ categories protection. Lock down servers with Application Control, protect 
All Categories 
Software Infrastructure (22) 
Business Software (28) Deep Learning AMI (Ubuntu) [select | 
[Et ainazon 
C bservices 。 诡 妆 委身 各 [1)| 1.0 | Sold by Amazon Web Services 
下 Operating System 
$0.023 to $41.944/hr nel ECa charges + other AWS Usagefess 






Ses Eline Image (AM) | Updated: 11/13/17 
了 AllWindows le ng AMI provides a stable, secure, and high performance execution environment for running deep leaming 
Windows 2016 加 applications on Amazon EC2. It provides pre-installed deep ... 
Moreink 
Y All Linux/Unix 
Amazon Linux (6) a i Deep Learning Base AMI (Ubuntu) [| select | 
Centos (1) Webservices 和 入 入 和 加 0)| 1.0 |Sold by Amazon Web Senicee 
Ubuntu (26) $0.023 to $41.944/hr incl EC2 chargos + other AWS usago foos 


LinuyUnix, Ubuntu 16.04 | 84-bit Amazon Machine Image (AM | Updated: 11/13/17 


人 Feedback 加 English (US) © 2008 - 2017.Ama orits affiiates. Al richts resaved. Privacy Policy 。 Terms of Use 








图 E-3 选择 一 个 AWS 机 器 镜像 


(5 ) 本 书 中 的 一 些 神经 网 络 代码 在 Deep Learning AMI (Ubuntu ) 上 进行 了 测试 ， 其 旨 在 充 
分 利用 虚拟 机 上 的 所 有 GPU 硬件 。 单 击 要 使 用 的 AMI 旁边 的 蓝 色 Select 按钮 。 如 果 选 择 了 一 个 
Amazon Marketplace 镜像 ,那么 将 会 看 到 在 各 种 具有 GPU 的 EC2 实例 上 运行 AMI 的 价格 预 估 值 
(如 图 E-4 所 示 )。 

(6 ) 许多 开源 AMI， 如 Deep Learning Ubuntu AMI， 都 是 免费 的 ， 所 以 Amazon Marketplace 的 
More Info 页 面 上 的 软件 成 本 栏 显示 为 0 美元 。AWS Marketplace 选项 卡 下 的 其 他 AMI， 如 RocketML 
AMI， 可 能 会 有 与 之 相关 的 软件 成 本 。 不 管 软件 成 本 如 何 ， 如 果 超 出 了 “免费 层 ” 的 限制 ， 则 需要 为 
服务 器 实例 的 开机 时 长 付费 。GPU 实例 不 在 免费 层 中 。 因 此 , 在 运行 昂贵 的 实例 之 前 , 请 确保 自己 的 
流水 线 已 经 在 低 成 本 CPU 机 器 上 完全 测试 过 。 如 果 你 正在 查看 此 价格 表 ( 如 图 E-4 所 示 )， 请 单 击 蓝 
色 的 Continue 按钮 。 如 果 已 经 返回 到 Amazon Marketplace 上 的 AMI 列表 ， 则 可 以 单 击 自己 的 EC2 实 





























Q@ ISO 是 ISO-9660 的 缩写 , ISO-9660 是 国际 标准 组 织 的 一 个 开放 标准 , 用 于 编写 磁盘 镜像 ,使 其 不 仅 可 以 在 一 个 专 有 的 云 服务 
(如 AWS ) 上 ， 还 可 以 在 其 他 地 方 传输 和 安装 。 
@ 在 撰写 本 书 时 ，Amazon Marketplace 中 一 个 这 样 的 镜像 的 AMI ID 是 ami-fld51489。 
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例 上 要 安装 的 AMI 旁边 的 蓝 色 Select 按钮 ， 这 将 进入 “步骤 2: 选择 实例 类 型 ” 如 图 E-5 所 示 )。 


量 Ecz Management Console 


| Oa https://us-west-2.console.aws.amazon.com/ec2/v2/home?region=us-west-2#LaunchinstanceWi 


Deep Learning AMI (Ubuntu) 


Deep Learning AMI (Ubuntu) Pricing Details 
ie Deep Learning AMI provides a stable, secure, 
rmance executio! vironment for Hourly Fees 
's on Amazon 

S pre-installed deep leaming 
including Apache MXNet Caffe2， 
TensorFlow, PyTorch, Keras, CNTK and Theano as 
well as packages that enable easy integration with M3 Extra Large ): $0.266/hr 
other AWS services. R4 16 Extra Large : $4.256Ihr 

Morainfo M4 Extra Large : $0.20/hr 

View Additional Details in AWS Marketplace Orophins Two Etia Large | SO.65Ihr 


Instance Type Total 
R3 Eight Extra Large $2.66/hr 


Product Details C3 Quadruple Extra Large 1 $0.84/hr 
High VO Quadruple Extra Large 4 $1.248/hr 
T2 Large K $0.093/hr 
C4 Double Extra Large : $0.398Ihr 
G2 Eight Extra Large | $2.60/hr 
R3 Double Extra Large 1 $0.665Ihr 
C5 Large 1 $0.085Ihr 
High Storage Eight Extra Large lt $4.60/hr 
X132 Extra Large : $13.338/hr 
CC2 Cluster Compute $2.00/hr 
Highlights T2 Double Extra Large : $0.371/hr 
T2 Extra Large ). $0.186Ihr 


Sold by Amazon Web Services 
Customer Rating (1) 
Latest Version 1.0 

Base Operating System ”LinuxUnix Ubuntu 16.04 

Delivery Method 64-bit Amazon Machine Image (AMI) 

License Agreement End User License Agreement 
On Marketplace Since 1114117 

AWS Services Required Amazon EC2, Amazon EBS 


Used Ubuntu 16.04 fami-cd0Df5cb6) as the base AML 





图 E-4 机 器 镜像 和 AWS 区 域 中 可 用 实例 类 型 的 成 本 一 览 

(7 ) 在 此 步骤 中 ， 选 择 虚 拟 机 的 服务 需 类 型 ( 如 图 E-5 所 示 )。 最 小 的 GPU 实例 g2.2xlarge 
是 一 个 很 好 的 值 。 亚 马 逊 的 UI 会 预先 选择 更 昂贵 的 类 型 ， 所 以 如 果 想 要 g2.2xlarge 实例 ， 就 必 
须 手 动 选择 它 。 此 外 ， 如 果 选 择 US West 2 ( Oregon ) 作为 自己 所 在 的 地 区 ， 而 不 是 其 他 美国 地 
区 ,大 家 会 发 现 虚 拟 机 要 便宜 得 多 。 大 家 可 以 在 靠近 账户 名 称 的 页 面 右 上 角 的 菜单 中 找到 该 选项 。 

(8 ) 一 旦 选择 了 想 要 使 用 的 实例 类 型 ， 就 可 以 通过 单 击 蓝 色 的 Review and Launch 按钮 启动 
机 器 。 但 是 对 于 大 家 的 第 一 个 实例 , 大 家 应 该 按照 自己 的 方式 完成 所 有 安装 向 导 步 又 ,这 样 即 便 
决定 接受 这 些 界面 上 的 默认 值 ， 也 可 以 看 到 选项 是 什么 。 要 继续 下 一 步 ， 单 击 灰 色 的 Next: 
Configure Instance Details 按钮 。 

(9 ) 这 里 可 以 配置 实例 细节 ( 如 图 E-6 所 示 )。 如 果 已 经 在 现 有 的 虚拟 私有 云 (VPC ) 上 使 
用 AWS 机 器 ， 则 可 以 将 自己 的 GPU 机 器 分 配给 现 有 的 VPC。 同 一 VPC 上 的 机 器 可 以 使 用 该 
VPC 上 的 相同 网 关 或 堡垒 服务 器 来 访问 大 家 的 机 器 。 但 是 ， 如 果 这 是 大 家 的 第 一 个 EC2 实例 ， 
或 者 没有 “保全 服务 器 ”( bastion server ) "， 则 不 需要 担心 这 个 问题 。 

( 10 ) 选择 “防止 意外 终止 ”( Protect against accidental termination ) 将 使 大 家 更 难 意外 终止 机 
器 。 在 Amazon Web Services 上 ,“terminate”( 终止 ) 意 为 关闭 机 器 并 删除 其 存储 单元 。“ 停 止 ” 
( stop ) 意 为 关闭 或 挂 起 机 器 ， 同 时 保留 所 有 可 能 保存 到 该 机 器 上 要 持续 存储 的 训练 检查 点 。 











人 亚马逊 有 一 个 关于 Bastion 主机 的 最 佳 实践 教程 。 
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CE CA Oa https://us-west-2.console.aws.amazon.com/ec2/v2/home?regior #LaunchinstanceW 。 全 WN Ds 
Services ~ Resource Groups ~ Oregon 
1. Choose AMI 2. Choose Instance Type 3, Configure Instance 4. Add Storage 5. Add Tags 6. Configure Security Group 7.Review 
Step 2: Choose an Instance Type 
ute Optmiz c3xlarge 4 75 2x40(SSD) Yes Moderate Yes 
Compute optimized c3.2xlarge 8 15 2x 80 (SSD) Yes High Yes 
Compute optimized c3.4xlarge 16 30 2x 160 (SSD) Yes High Yes 
c3.8xlarge 32 60 2x320 (SSD) - 10 Yes 
© FPGA instances f1.2xlarge 8 122 1x470 (SSD) Yes Upto 10 Gigabit Yes 
© f1.16xlarge 64 976 4x940 (SSD) Yes 25 Gigabit Yes 
© g3.4xlarge 16 122 EBS only Yes Up to 10 Gigabit Yes 
(2) GPU graphics g3.8xlarge 32 244 EBS only Yes 10 Gigabit Yes 
© GPU graphics g3.16xlarge 64 488 EBS only Yes 25 Gigabit Yes 
中 GPU g2.2xlarge 8 15 1x60 (SSD) Yes High - 
GPU instances g2.8xlarge 32 60 2x 120 (SSD) - 10 Gigabit - 
GPU compute p2xlarge 4 61 EBS only Yes High Yes 
GPU compute p2.8xlarge 32 488 EBS only Yes 10 Gigabi Yes 
GPU compute p2.16xlarge 64 732 EBS only Yes 25 Gigabit Yes 
GPU compute p3.2xlarge 8 61 EBS only Yes Up to 10 Gigabit Yes 
Cancel ”Previous Next: Configure Instance Details 
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图 E-5 选择 实例 类 型 


到 GCG 会 Oa nh 
aws 





lus-west-2.console.aws.amazon.com/ec2/v2/home?region=us-west-2#LaunchinstanceW "加 全 机 四 | 三 





Services v Resource Groups v A Ei 





nv Support v 
1. Chocse AMI 2.ChooselnstanceType 。 3.Configure Instance 4.AddStorage 5.AcdTags 6.Configure SecurtyGroup 7.Review 


Step 3: Configure Instance Details 
Configure the instance to suit your requirements. You can launch multiple instances from the same AMI, request Spot instances to take advantage of the lower pricing, assign an access 
management role to the instance, and more. 


Number of instances (1 日 Launch into Auto Scaling Group (® 


Purchasing option (1 Request Spot instances 


Network 上 vpe-7d930a1a (default) C createnewvPC 


Subnet 人 No preference (default subnet in any Availability Zo Create new subnet 


Auto-assign PubliciP (1 Use subnet setting (Enablel 


Placement group 人 Add instance to placement group. 


IAMrole 但 None C create new IAM role 
Shutdown behavior (1 Stop 


Enable termination protection 


Monitoring 


EBS-optimized instance 


Tenancy 


Protect against accidental termination 


Enable CloudWatch detailed monitoring 
Additional charges apply. 


Launch as EBS-optimized instance 
Additional charges apply. 


Shared - Run a shared hardware instance 


Additional charges will apply for dedicated tenancy. 


Cancel Previous (EIEN Next AddStorage 
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图 E-6 ”向 实例 添加 存储 单元 
(11 ) 要 继续 ， 单 击 Next: Add Storage 按钮 。 
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(12 ) 在 这 个 步骤 中 (如 图 E-7 所 示 )， 如 果 计 划 使 用 大 型 语料库 ， 可 以 添加 存储 单元 。 但 是 ,最 
好 在 EC2 实例 中 使 用 较 少 的 “本 地 ”存储 , 并 在 EC2 实例 启动 并 运行 之 后 等 待 挂 载 亚马逊 的 S3 Bucket 
或 其 他 云 存储 服务 。 这 允许 跨 多 个 服务 器 共享 大 型 数据 集 或 训练 运行 ( 在 实例 终止 之 间 ) Amazon Web 
Services 将 对 所 有 超过 30 GB“ 本 地 ”EC2 免费 存储 单元 收取 费用 。AWS UX 有 很 多 黑暗 模式 累积 费用 。 














aConfgurelnstance 4AddStorage SAddTags 6.Configure SecuriyGroup 7.Review 





ll be launched with the following storage device settings. You can attach additional EBS volumes and instance store volumes to your instance, or 
Ime, You can also attach additional EBS volumes after launching an instance, but not instance store volumes, Leam more about 





Delete on 
Volume Type 1 Device Dsnapshot 1 Sp volume Type 1 Iops 1 oe Termination EneYPled 

i 
Root ldevisdal snap-096855dc12749ca99 50 General Purpose SSD (GP2) 15013000 N/A Not Encrypted 
Instance Store0 园 icevscbo 回 NA N/A N/A NA NA N/A NotEncypted @ 
Add New Volume 








Free tier eligible customers can get up to 30 GB of EBS General Purpose (SSD) or Magnetic storage. Learn more about free usage tier eligibility and 
sage restrictions. 
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图 E-7 向 实例 添加 持续 存储 单元 

(13 ) 单 击 Next 按钮 继续 进行 下 一 步 ， 查 看 分 配给 EC2 实例 的 默认 标签 和 安全 组 。 最 后 一 
个 Next 按钮 将 向 大 家 发 送 检查 步骤 ( 如 图 E-8 所 示 )。 

(14 ) 在 检查 界面 上 (如 图 E-8 所 示 )，Amazon Web Services 在 预览 中 显示 了 实例 的 详细 信息 。 

(15 ) 在 单 击 Launch 按钮 之 前 , 确认 实例 的 详细 信息 一 一 特别 是 类 型 (RAM 和 CPU )、AMI 
镜像 ( Deep Learning Ubuntu ) 和 存储 空间 ( 存储 数据 的 足够 GB )。 此 时 ，AWS 将 启动 虚拟 机 并 
开始 将 软件 镜像 加 载 到 虚拟 机 上 。 

(16 ) 如 果 以 前 没有 使 用 AWS 创建 过 实例 ， 那 么 它 将 要 求 大 家 创建 一 个 新 的 密 钥 对 ( 如 图 E-9 
所 示 )。 密 钥 对 允许 在 没有 密码 的 情况 下 通过 ssh 进入 机 器 。 上 默认 情况 下 ，EC2 实例 不 允许 通过 
密码 登录 ， 因 此 需要 将 .pem 文件 保存 在 SHOME/ .ssh/ 文 件 夹 下 ， 并 将 其 副本 安全 地 保存 在 本 
地 (例如 密码 管理 器 )， 否 则 将 无 法 访问 正在 运行 的 服务 器 ， 从 而 必须 重新 启动 。 

( 17 ) 保存 密 钥 对 ( 如果 创 建 了 新 的 密 钥 对 ) 后 ，AWS 确认 启动 了 实例 。 在 极 少 数 情况 下 ， 
亚马逊 的 数据 中 心 可 能 没有 接收 到 大 家 请 求 的 资源 ， 这 时 将 收 到 一 个 错误 消息 ， 要 求 重新 开始 。 

(18 ) 单 击 以 工 … 开 头 的 哈 希 实例 ( 如 图 E-10 所 示 )。 该 链接 将 发 送 所 有 EC2 实例 的 概览 ， 
大 家 将 看 到 实例 状态 指示 为 “正在 运行 ”或 “正在 初始 化 ”。 

(19 ) 大 家 会 希望 在 .pem 文件 旁 记录 实例 的 公共 IP 地 址 ( 如 图 E-11 所 示 )， 以 获得 前 面 生 
成 的 密 钥 对 。 将 它 存储 在 .pem 文件 的 密码 管理 器 中 是 一 个 好 主意 。 大 家 也 可 以 把 它 放 在 自己 的 
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ient Consol 





Da https://us-west-2.console.aws.amazon.com/ec2/v2/home?region=us-west-2#LaunchInstanceWi 


aws Services ~ Resource Groups ~ 多 el ~ oregon Support ~ 


1. Choose AMI 2.ChooseInstanceType 3.Configureinstance ‘4.pAddStorage 5.AddTags 6.Configure Secufity Group 7.Review 


Step 7: Review Instance Launch 
Please review your instance launch details. You can go back to edit changes for each section. Click Launch to assign a key pair to your instance and complete the launch process. 


汶 回 





A Improve yourinstances' security. Your security group, Deep Learning AMI -Ubuntu--1-0-AutogenByAWSMP-,is open to the world. 
Your instances may be accessible from any IP address. We recommend that you update your security group rules to allow access from known IP addresses only. 
You can also open additional ports in your security group to facilitate access to the application or service you're running, e.g., HTTP (80) for web servers. Edit security groups 











A Yourinstance configuration is not eligible for the free usage tier 
To launch an instance that's eligible for the free usage tier, check your AMI selection, instance type, configuration options, or storage devices Learn more about free usage tier 
eligibilty and usage restrictions. 











Y AMI Details EditAMI 


Deep Learning AMI (Ubuntu) 
se Doop Loarning AMI with conda Ubuntu) 


Root Device Typo: cbs Virtualization type: hym 


Hourly Software Fees: $0.00 per hour on g2.2xlarge instance [Additional taxes may apply) 
Software charges will begin once you launch this AMI and continue until you terminate the instance. 


By launching this product, you will be subscribed to this software and agree that your use of this soitware is subject to the pricing terms and the seller's 
End User License Agreement 


Y Instance Type Edit instance type 
Instance Type Ecus vcCPUs Memory (GiB) Instance Storage (GB) EBS-Optimized Available Network Performance 
g2.2xlarge 26 8 15 1x60 Yes High 


on [El EE 
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量 Ec2 Management Console x 四 


| © @ https://us-west-2.console.aws.amazon.com/ec2/v2/home?region=us-west-2#LaunchinstanceW 0. 安 | 


Select an existing key pair or create a new key pair 


A key pair consists of a public key that AWS stores, and a private key file that you store, Together, 
they allow you to connect to your instance securely For Windows AMIs, the private key fie is required 
to obtain the password used to log into your nstance. For Linux AMIs, the private key file alows you to 
securely SSH into your instance, 


Note: The selected key pair will be added to the set of keys authorized for this instance, Learn more 
about removing existing key pairs from a public AMI. 


Create a new key pair 
Key pair name 
nlp-in-action 


Download Key Pair 





@ You have to download the private key file (*.pem file) before you can continue. Store 
it in a secure and accessible location. You will not be able to download the fie 
again afterits created. 








= 





图 E-9 创建 一 个 新 的 实例 密 钥 ( 或 下 载 一 个 现 有 的 实例 密 钥 ) 
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E/ .ssh/config 文件 夹 下 ,这样 就 可 以 给 实例 一 个 主机 名 ， 从 此 以 后 就 不 必 查 找 全 地址 了 。 
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EC2 Management Console 


所 (ci Oa https://us-west-2.console.aws.amazon.com/ec2/v2/home?region=us-west-2#Launchinstal | 





aws Services v ResourceGroups v 久 





= Oregon ”Support v 


Launch Status 





四 Your instances are now launching 
The following instance launches have been initiated: 0e6dab2ec68602fe9 ”View launch log 








@ Getnotified of estimated charges 
Create biling alerts to get an email notification when estimated charges on your AWS bill exceed an amount you define (for example, if you exceed the free usage tier). 





How to connect to your instances 


Your instances are launching, and it may take a few minutes until they are in the running state, when they will be ready for you to use. Usage hours on your new instances will start immediately and 
continue to accrue until you stop or terminate your instances. 


Click View Instances to monitor your instances' status. Once your instances are in the running state, you can connect to them from the Instances screen. Find out how to connect to your 
instances, 


7 Getting started with your software 


To get started withDeep Learning AMI (Ubuntu) To manage your software subscription 


View Usage Instructions Open Your Software on AWS Marketplace 


Y Here are some helpful resources to get you started 
» How to connect to your Linux instance » Amazon EC2: User Guide 
» Learn about AWS Free Usage Tier » Amazon EC2: Discussion Forum 


While your instances are launching you can also 


Create status check alarms to be notified when these instances fail status checks. (Additional charges may apply) 


@ Feedback 





图 E-10 ”AWS 启动 确认 





EC2 Management Console 














所 已 在 号 https://us-west-2.console.aws.amazon.com/lec2/v2/home?region=us-west-2#Instances:s: 宇 改 回 
GMA Services v Resource Groups v 人 娘 [a Oreqoom ” Support ~ 
[ET Connect Actions ~ 
4 心 内 日 
Events 
Tags 以 search : -0e6dab2ec68602fe9 © 1to1of1 
Reparts 国 | Name -| Instance ID | Instance Type -| Availability zone -| Instance State - Status Checks ~ AlarmStatus Public DNS (IPv4) 
Limits 
@ i-0e6dab2ec68602fe9  g2.2xlarge us-west-2b © uming EE 外 Loading... ec2.34-214-168-12 
= INSTANCES 
| Instances 
Launch Templates 
Spot Requests 
Reserved Instances 
Dedicated Hosts 
Scheduled Instances 
3 IMAGES 
AMIs 
Bundle Tasks 
3 ELASTIC BLOCK STORE 
Volumes 
Snapshots 
回 NETWORK & SECURITY Instance: | i-0e6dab2ec68602fe9 Public DNS: ec2-34-214-168-124.us-west-2.compute.amazonaws.com 图 四 加 
Security Groups 
Biaito Ps Description StatusChecks Monitoring Tags 
Placement Groups Instance ID 。 F0e5dab2ec68602feg Public DNS (IPv4) ”ec2-34-214-168-124.Us- 
Key Paits west-2.compute.amazonaws.com 
Instance state running IPv4 Public IP 。 34.214.168.124 
Network Interfaces 
Instance type 。 g2.2xlarge IPvelps - 
SS LOAD BALANCING Elastic IPs Private DNS ip-172-31-26-225.us- 
Load Balancers west-2.compute.internal 
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图 E-11 EC2 指示 板 显 示 了 新 创建 的 实例 





Privacy Policy & Termsof Use 
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一 个 典型 的 配置 文件 将 如 代码 清单 E-1 所 示 。 最 好 将 刚刚 启动 的 EC2 实例 的 HostName 值 
更 改 为 公共 人 P 地 址 (从 EC2 指示 板 更 改 ) 或 完全 限定 域名 (从 AWS 上 的 “Route 53” 指 示 板 更 改 ) 





代码 清单 E-1 $HOME/.ssh/config 


将 INSTANCE PUBLIC IP 更 
Nest otargooo 改 为 大 家 自己 的 公共 IP 地 址 











User ubuntu 

HostName INSTANCE PUBLIC IP 

了 GT 七 , 之 和 

IdentityFile ~/.ssh/nlp-in-action.pem 


# ssh -i ~/.ssh/nlp-in-action.pem ubuntu@INSTANCE PUBLIC IP 
大 家 可 以 在 自己 的 配置 文件 中 
留 下 注释 
(20 ) 在 登录 到 AWS 实例 之 前 ，ssh 需要 私 钥 文件 ( .pem 文件 在 你 的 $HOME/ .ssh 目录 下 ) 
只 能 由 你 自己 和 系统 上 的 根 超级 用 户 读 取 。 大 家 可 以 通过 执行 以 下 bash 命令 来 适当 地 设置 权限 ”: 


这 确保 只 有 你 自己 可 以 删除 、 改 写 、 读 
取 和 执行 SHOME/ssh 目录 下 的 命令 


这 是 大 家 下 载 的 .pem 文 
件 的 路 径 














chown -R $USER:users S$SHOME/ .ssh 
chmod 700 S$HOME/.ssh 

chmod 600 S$HOME/.ssh/nlp-in-action.pem 
chmod -R 600 $HOME/.ssh/* 











这 确保 只 有 你 自己 可 以 读 
写 自己 下 载 的 .pem 文件 


这 确保 你 可 以 读 写 $HOME/ssh 目录 下 的 
任何 文件 ， 例 如 创建 账户 时 生成 的 默认 的 
文件 id_rsa 和 id_rsa.pub 

(21 ) 设置 好 适当 的 文件 权限 并 设置 好 配置 文件 后 , 执行 以 下 bash 命令 , 尝试 登录 到 EC2 实例 : 

$ ssh -i ~/.ssh/nlp-in-action.pem ubuntu@INSTANCE PUBLIC IP 

(22 ) 如 果 亚 马 逊 机 器 镜像 是 基于 Ubuntu 的 ， 则 用 户 名 通常 是 ubuntu。 每 个 AMI 都 有 关 
于 登录 所 需 的 用 户 名 和 ssh 端口 号 的 文档 。 

(23 ) 如 果 大 家 是 第 一 次 登录 ， 则 将 被 警告 机 器 的 指纹 未 知 (如 图 E-12 所 示 )。 输 入 yes 确 
认 继续 登录 过 程 。 

( 24 ) 成 功 登录 之 后 ， 大 家 将 看 到 一 个 欢迎 界面 ( 如 图 E-13 所 示 )。 

(25 ) 作为 最 后 一 步 ， 大 家 需要 激活 喜欢 的 开发 环境 。 机 器 镜像 提供 了 各 种 环境 ， 包 括 
PyTorch、TensorFlow 和 CNTK。 因 为 我 们 在 本 书 中 使 用 了 TensorFlow 和 Keras， 所 以 大 家 应 
该 激活 tensorflow_p36 环境 。 这 将 加 载 一 个 安装 了 Python 3.6、Keras 和 TensorFlow 的 虚拟 环境 
(如 图 E-14 所 示 ): 


$ Source activate tensorflow p36 


HA 





























Q@ 必须 安装 一 个 如 cygwin 或 git-bash 的 bash shell 命令 行 操 作 工 具 , 以 便 bash ssh 命令 在 Windows 系统 上 执行 。 
@ 如 果 将 来 在 大 家 没有 更 改 它 的 耻 地 址 时 看 到 这 个 警告 ， 那么 可 能 是 有 人 企图 欺骗 你 机 器 的 IP 地 址 或 域 
名 ， 并 使 用 中 间 人 攻击 (man-in-the-middle attack ) 侵入 你 的 实例 。 这 是 极为 罕见 的 。 
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全 日 @ 2. ssh 





Last Login: Thu Nov 16 21:51:26 on ttys007 

You have mail. 

12:48-hannes@Hanness-MBP-2$ ssh -i ~/Downloads/nlp-in-action.pem ubuntu@34.214.168.124 
The authenticity of host '34.214. 吧 » (34.214.m. D" can't be established 

ECDSA key fingerprint is SHA256:Ys+L]Jbmnsmci9/bCSXnvc6b2LqYzNw07iqM2pLE . 

Are you sure you want to continue connecting (yes/no)? | | 








7 


图 E-12 ”交换 ssh 凭据 的 确认 请 3 


©Oe@e@ 2. ubuntu@ip-172-31-26-225: ~ (ssh) 














| / Deep Learning AMI (Ubuntu) 
































Welcome to Ubuntu 16.04.3 LTS CGNU/Linux 4.4.0-1039-aws x86_64v) 


Please use one of the following commands to start the required environment with the framework of your choice: 


for MXNetC+Keras1) with Python3 (CUDA9) source activate mxnet_p36 
for MXNetC+Keras1) with Python2 (CUDA9)_ .source activate mxnet_p27 
for TensorFlowC+Keras2) with Python3 (CUDA8) source activate tensorflow_p36 
for TensorFlowC+Keras2) with Python2 (CUDA 8) _  _ source activate tensorflow_p27 
for Theano(+Keras2) with Python3 (CUDA 9) source activate theano_p36 
for TheanoC+Keras2) with Python2 (CUDA 9) source activate theano_p27 


for PyTorch with Python3 (CUDA 8) ~ > 
for PyTorch with Python2 (CUDA 8) Source activate pytorch_p27 
for CNTK(C+Keras2) with Python3 (CUDA 8) source activate cntk_p36 
for CNTKC+Keras2) with Python2 (CUDA 8) _ source activate cntk_p27 
For Gottez with Pythonz (COA 9 source activate cqaffe2_p27 
for base Python?2 (CUDA 9) _ 这 a _ source activate python2 
for base Python3 (CUDA 9) _ a et _ source activate python3 


Source activate pytorch_p36 














Official conda user guide: https://conda.io/docs/user-guide/index.html 
AMI details: https://aws.amazon.com/amazon-ai/amis/details/ 
Release Notes: https://aws.amazon.com/documentation/dlami/latest/devguide/appendix-ami-release-notes.html 














图 E-13 成 功 登 录 后 的 欢迎 界面 


@ae 2. ubuntu@ip-172-31-26-225: ~ (ssh) 





Official conda user guide: https://conda.io/docs/user-guide/index.html 
AMI details: https://aws.amazon.com/amazon-ai/amis/details/ 
Release Notes: https://aws.amazon.com/documentation/dlami/latest/devguide/appendix-ami-release-notes.html 


本 Documentation: https://help,ubuntu,com 
* Management: https://landscape.canonical .com 
* Support: https://ubuntu. com/advantage 


Get cloud support with Ubuntu Advantage Cloud Guest: 
http://wwn.ubuntu.com/business/services/cloud 


56 packages can be updated. 
31 updates are security updates. 


The programs included with the Ubuntu system are free software; 
the exact distribution terms for each program are described in the 
individual files in /usr/share/doc/*/copyright. 


Ubuntu comes with ABSOLUTELY NO WARRANTY, to the extent permitted by 
applicable law. 





ubuntueip-172-31 





source activate tensorfLlow_p3 人 有 


图 E-14 激活 预先 安装 的 Keras 环境 


1 
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现在 大 家 已 经 激活 了 TensorFlow 环境 ,已 经 准备 好 训练 自己 的 深度 学 习 NLP 模型 。 使 用 
iPython shell : 


$ ipython 


现在 大 家 已 经 准备 好 训练 自己 的 模型 了 ， 接 下 来 玩 得 开心 ! 


成 本 控制 


在 AWS 这 样 的 云 服务 上 运行 GPU 实例 会 很 昂贵 。 在 撰写 本 书 时 ，US-West 2 地 区 最 小 的 
GPU 实例 的 成 本 为 每 小 时 0.65 美元 。 训 练 一 个 简单 的 序列 到 序列 模型 可 能 需要 几 个 小 时 ， 然 后 
可 能 需要 迭代 模型 参数 。 所 有 的 和 欠 代 会 快速 地 累积 成 一 个 价格 不 菲 的 月 账单 。 大 家 可 以 通过 一 些 
预防 措施 来 最 小 化 意外 花费 ( 如 图 E-15 和 图 E-16 所 示 )。 

四 ”关闭 空闲 的 GPU 机 器 。 当 停止 ( 而 不 是 终止 ) 机 器 时 ， 存储 的 最 后 一 个 状态 (除了 /tmp 
文件 夹 ) 将 被 保留 ， 可 以 返回 到 它 。 内 存 中 的 数据 将 丢失 ， 因 此 请 确保 在 停止 机 器 之 前 
保存 所 有 模型 的 检查 点 。 

四 ”检查 EC2 实例 摘要 页 ， 查 看 正在 运行 的 实例 。 

国定 期 检查 AWS 账单 摘要 ， 以 检查 正在 运行 的 实例 。 

加 创建 一 个 带 有 支出 预警 的 AWS Budget。 一 旦 配置 了 预算 ， AWS 将 在 超出 预算 前 给 出 




















所 CG 会 © @ https://console.aws.amazon.com/billing/home?region=us-west-2#/ 人 土改 四 三 
x 
| pasnpoard Billing & Cost Management Dashboard © 
Bills 
Cost Explorer What's New in AWS Billing and Cost Management? Month-to-Date Spend by Service Bill Details 
Budgets 。 Manage your spend with AWS Budgets 


The chart below shows the proportion of costs spent for each service you use. 
Reporis 。 Visualize your costs and usage with the newly-optimized Cost Explorer 


2 。 Easily upload your Cost and Usage Reports into Redshift and 
Cost Allocation Tags 


QuickSioht 

Payment Methods 

Payment History aa ) 
Consolidated Biling Spend Summary Cost Explorer 

Preferences Welcome to the AWS Account Biling console. Your last month, month-to-date, 


and month-end forecasted costs appear below. 











Credits 
Tax Settings Current month-to-date balance for December 2017 
Dopey $0 07 园 Ros $0.07 
. 国 DateTiansfer $0.00 
S25 
a 园 Ecz $0.00 
i Tax $0.00 
Total $0.07 
S15 
$13.06 
S10 
$5 
四 $0.07 
Last Month Month-to-Date Forecast 
{November 2017) (December 2017) (December 2017) 
» Important Information about these Costs ”网 Include Subscription Charges 
httpsi/console.aws.amazon.com/oiling /home ?regior=us-west-2costexplorer YY USage Vey 


图 E-15 AWS 计 费 指示 板 
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eiling Management Console 











所) 全 QG 个 © @ https://console.aws.amazon.comlbilling/home?region=us-west-2#/budgets 个 业 心 团 三 
GA Services v Resource Groups v 人 女 Global » Support v 
Dashboard 
Bils AWS Budgets @ 
Gont Explorer AWS Budgets lets you quickly create custom budgets that will automatically alert you when your AWS costs or usage exceed, or are forecasted to 
Budgets exceed, the thresholds you set. 
Reports 
Cost Allocation Tags 
Create budget 
Payment Methods 
Payment History 
Consolidated Biling Getting started with AWS Budgets 
Preferences 
Credits < 
Tax Settings i [sss 
DevPay ud 一 = 
[下 一 
Create and manage budgets Refine your budget using filters Add notifications to a budget 
Set custom cost and usage budgets to more Track your cost or usage across multiple Ensure that the right people know a threshold 
easily manage your AWS spend. Monitor dimensions by adding fiters related to Service, has been exceeded by sending notifications via 
budget status from the Budgets Dashboard. Linked Account(s), Availability Zone, and more. email or publishing notifications to your SNS 


topic. 


For more information about managing your AWS Budgets, refer to Managing Your Costs With Budyets in the Billing & Cost Management User Guide. 
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图 E-16 AWS Budget 控制 合 
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在 第 4 章 中 ， 我 们 学 习 了 如 何 创建 具有 数 百 个 实 值 〈 浮 点 数 ) 维度 的 主题 向 量 。 在 第 6 章 中 ， 
我 们 学 习 了 如 何 创建 具有 数 百 维 的 词 向 量 。 尽 管 可 以 对 这 些 向 量 进行 数学 运算 ， 但 无 法 像 搜索 离散 
向 量 或 字符 串 那 样 快速 地 对 这 些 向 量 进行 搜索 。 数 据 库 没 有 针对 超过 4 个 维度 向 量 的 有 效 索 引 方案 。 
要 想 有 效 地 使 用 词 向 量 和 文档 主题 向 量 ， 就 需要 一 个 搜索 索引 ， 用 来 寻找 任意 给 定向 量 的 最 近邻 。 

同时 需要 这 个 搜索 索引 将 向 量 数学 运算 的 结果 转换 成 一 个 或 一 组 词 (因为 生成 的 向 量 通常 不 
会 与 已 有 的 词 向 量 完全 匹配 )。 大 家 还 需要 用 这 个 搜索 索引 进行 语义 搜索 。 本 附录 展示 了 一 个 基 
于 局 部 敏感 哈 希 (locality sensitive hash，LSH ) 的 示例 方法 。 

































































F1 高 维 向 量 的 区 别 


当 向 量 的 维 数 从 一 维 增加 到 二 维 , 甚至 是 三 维 时 , 快速 寻找 最 近邻 的 数学 方法 本 身 并 没有 多 
大 变化 。 我 们 先 谈 谈 数据 库 中 针对 二 维 向 量 索 引 所 使 用 的 传统 方法 ， 然 后 再 来 研究 高 维 向 量 。 这 
会 帮助 大 家 了 解数 学 方法 将 在 何 处 失效 ( 变 得 不 切实 际 )。 





























F.1.1 向 量 空间 上 的 索引 与 哈 希 


设计 索引 是 为 了 使 查找 变 得 简单 。 像 经 纬度 这 种 浮 点 值 索 引 不 能 依赖 精确 匹配 ， 例 如 教科 书 
后 面 的 词 索 引 。 对 于 二 维 实 值 数据 , 大 多 数 索引 使 用 某 种 边界 框 将 低 维 空间 划分 为 多 个 可 管理 的 
块 。 这 种 二 维 地 理 位 置信 息 索 引 的 最 常见 的 例子 是 各 国 用 于 收集 相 邻 区 域内 邮件 地 址 的 邮政 编码 
系统 (在 美国 称 为 ZIP Code )。 

大 家 可 以 给 二 维 空间 中 的 每 个 区 域 分 配 一 个 数字 , 尽管 邮政 编码 区 域 不 是 矩形 的 边界 框 , 但 
它们 具有 相同 的 用 途 。 和 军事 上 使 用 带 网 格 系统 的 边界 框 将 全 球 划分 为 矩形 边界 框 ,， 并 为 每 个 框 分 
配 一 个 数字 。 在 美国 邮政 编码 和 军事 网 格 系统 中 ， 这 些 区 域 的 数字 都 具有 语义 意义 。 

















































































































QD 一 些 高 级 数据 库 ( 如 PostgreSQL ) 可 以 索引 更 高 维度 的 向 量 ， 但 效率 会 随 着 维 数 增加 而 迅速 下 降 。 
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像 美国 邮政 编码 这 样 具 有 “局 部 敏感 性 ”的 哈 希 来 自 这 样 一 个 事实 ， 即 在 序号 值 上 彼此 接近 
的 数字 或 哈 希 在 它们 对 应 的 二 维 空间 上 也 会 彼此 接近 。 例 如 , 美国 邮政 编码 中 的 第 一 个 数字 表示 
一 个 地 区 ， 如 西海 岸 、 西 南部 或 它们 所 属 的 州 。 下 一 个 数字 ( 与 第 一 个 数字 结合 ) 唯一 地 标识 特 
定 的 州 。 前 三 位 数字 唯一 地 标识 州 内 的 区 域 或 大 城市 。 美 国 邮政 编码 的 局 部 敏感 性 一 直 延 续 到 
“+4” 后 级 ， 它 标识 特定 的 城市 街区 ， 甚 至 是 公寓 大 楼 。 

美国 邮政 编码 系统 的 生成 过 程 和 算法 等 效 于 在 其 他 向 量 空间 上 创建 的 局 部 敏感 哈 希 算法 。 局 部 
敏感 哈 希 算法 定义 了 一 种 生成 这 些 局 部 敏感 数字 的 方法 。 它 们 使 用 向 量 空间 中 位 置 的 坐标 ， 所 以 如 
果 区 域 在 向 量 空间 中 的 映射 位 置 彼此 接近 或 有 重 矢 ， 则 其 对 应 的 哈 希 数值 也 会 彼此 接近 。 局 部 敏感 
哈 希 旨 在 创建 一 般 密码 哈 希 算法 试图 避免 的 那些 数学 属性 ， 例 如 高 概率 的 碰撞 和 局 部 敏感 性 。 




























































































F.1.2 关于 高 维 的 思 


自然 语言 向 量 空间 是 高 维 空间 。 自 然 语言 宫 括 了 人 类 思考 和 交流 中 的 所 有 复杂 概念 , 包括 自 
然 语 言 处 理 本 身 。 所 以 如 果 想 把 所 有 的 复杂 度 压缩 到 一 个 向 量 空间 中 ， 经 常会 丢弃 一 些 复杂 度 ， 
以 便 适 应 这 个 向 量 空间 。 通 过 增加 向 量 的 维 数 ， 能 够 尽 可 能 地 匹配 人 类 思维 和 语言 的 复杂 度 。 

例如 ， 词 袋 向 量 丢弃 了 词 序 中 包含 的 信息 内 容 ， 以 便 生成 能 够 高 效 索 引 和 搜索 的 离散 高 维 向 量 ， 
并 可 以 使 用 二 分 搜索 和 索引 树 来 检测 查询 和 语料库 中 是 否 存在 特定 的 关键 词 。 即 使 将 关键 词 表 扩展 到 
包含 自然 语言 中 的 所 有 词 ， 这 种 方法 依然 有 效 。Web 搜索 引擎 中 甚至 常常 同时 包含 数 百 种 语言 的 所 有 
词 。 这 就 是 大 家 在 使 用 Web 搜索 时 可 以 在 同一 个 查询 同时 包含 西班牙 语 、 德 语 以 及 英语 词 的 原因 。 

在 第 2 章 中 ， 大 家 学 习 了 通过 向 词 袋 向 量 维度 添加 n-gram 来 捕获 词 序 的 复杂 度 。 在 第 3 章 
中 , 学习 了 如 何 根 据 数 百 万 词 项 ( 词 或 n-gram ) 的 重要 性 来 评估 它们 的 权重 。 这 给 语言 的 向 量 空 
间 模 型 带 来 了 数 百 万 的 维度 或 “箱子 ”。 

但 是 词 袋 模型 、TF-IDF 和 正则 表达 式 并 不 能 理解 我 们 。 它 们 只 能 帮 我 们 找到 想 要 找 的 文档 。 
在 第 4~6 章 ， 我 们 学 会 了 构建 连续 的 向 量 空间 ， 将 自然 语言 的 部 分 复杂 度 压缩 到 词 频 整 数 之 间 
的 间 际 中 ,而 不 再 依赖 严格 的 离散 词汇 表 来 定义 向 量 空 间 的 维度 ,通过 将 词 分 组 到 概念 或 主题 中 ， 
可 以 将 向 量 的 维 数 从 数 百 万 减少 到 数 百 。 我 们 还 创建 了 属性 向 量 来 获取 词 和 句子 中 的 女性 、 忧 郁 
和 平静 等 属性 。 

还 有 更 多 。 在 第 7~10 章 中 , 我 们 了 解 了 如 何在 向 量 中 捕获 词组 合 ， 以 及 更 长 更 复杂 的 词 序 
列 。 当 学 习 循环 神经 网 络 和 长 短期 记忆 网 络 时 ， 我 们 的 浅 层 属性 向 量变 成 了 深层 思考 向 量 。 

但 所 有 这 些 深度 和 复杂 度 都 带 来 了 一 个 问题 。 连 续 的 、 密 集 的、 高 维 的 向 量 ( 如 思考 向 量 ) 无 
法 进行 有 效 的 索引 或 搜索 。 这 就 是 搜索 引 获 不 能 在 一 晤 秒 内 回答 我 们 提出 的 复杂 问题 的 原因 。 如 果 
想 要 探讨 生命 的 意义 ， 必 须 找 一 个 聊天 机 器 人 交谈 ， 或 者 干脆 打消 这 个 想法 ， 直 接 找 人 类 会 更 好 。 

这 是 为 什么 呢 ? 为 什么 不 能 对 高 维 连续 向 量 进行 索引 或 搜索 呢 ? 对 于 一 维 向 量 空间 , 在 一 维 
数 轴 上 索引 和 搜索 单个 标量 值 是 非常 容易 的 。 然 后 读者 可 以 思考 一 下 , 如 何 扩展 一 维 索引 来 处 理 




































































































































































































































































QD ZIP Code 维基 百科 文章 包含 一 张 地 图 ， 显 示 了 这 种 局 部 敏感 性 。 
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多 个 维度 。 读 者 可 以 沿 着 这 个 思路 一 直 思 考 维 数 问题 。 
1. 一 维 索 引 


想象 一 个 一 维 向 量 的 随机 分 布 一 一 一 串 随 机 数 。 我 们 可 以 创建 一 个 自然 的 一 维 边界 框 ， 它 的 宽度 
是 整个 空间 宽度 的 一 半 ， 方 法 是 将 数 轴 切 成 两 半 ， 然 后 就 可 以 把 所 有 正 值 放 在 一 个 框 里 ， 负 值 放 在 另 
一 个 框 里 。 只 要 知道 向 量 空间 的 中 心 或 质心 的 位 置 (通常 为 零 )， 每 个 框 中 就 会 有 大 约 一 半 的 向 量 。 

每 个 边界 框 都 可 以 再 一 分 为 二 , 总 共 创 建 4 个 框 。 如 果 继 续 这 样 做 ， 其 中 的 一 些 划 分 将 创建 
一 个 二 又 查 找 树 或 一 个 二 进 制 哈 希 ,该 哈 希 对 局 部 ( 它 的 位 置 ) 很 敏感 。 对 于 一 维 向 量 空间 ， 每 
个 框 中 点 的 平均 数量 是 pow (num vectors/2，num boxes) 。 对 于 一 维 空间 ， 只 需要 大 约 32 
个 级 别 ( 框 大 小 ) 的 框 就 可 以 索引 数 十 亿 个 点 ， 这 样 每 个 框 中 就 只 有 几 个 点 。 

每 个 一 维 向 量 都 可 以 有 自己 的 邮政 编码 、 索 引 值 或 局 部 敏感 哈 希 。 将 所 有 这 些 哈 希 值 排序 之 后 ， 
相似 的 向 量 将 彼此 相 邻 。 如 此 一 来 ， 对 于 新 查询 就 可 以 计算 它们 的 哈 希 值 ， 并 在 数据 库 中 快速 找到 它 。 


2. 二 维 、 三 维 、 四 维 索 引 


我 们 添加 一 个 维度 , 看 看 一 维 二 又 树 索引 如 何 工 作 。 考虑 一 下 如 何在 二 又 树 中 将 空间 划分 成 区 域 ， 
用 树 中 的 每 个 又 将 区 域 大 致 分 成 两 半 。 在 试图 将 点 数 减 半 时 ， 在 哪个 维度 上 减 半 呢 ?对 于 二 维 向 量 ， 
这 是 二 维 平面 上 的 2 x2 个 正方 形 或 象限 。 对 于 三 维 向 量 ， 这 可 能 是 空间 的 “魔方 ”中 的 3x3 x3 块 。 
对 于 四 维 向 量 , 需要 大 约 4x4x4x4 块 …… 二 又 树 索 引 的 第 一 个 分 又 将 会 产生 人 * 个 分 支 。 在 四 维 向 量 
空间 中 的 这 256 个 边界 框 可 能 有 一 些 不 包含 任何 向 量 ， 因 为 有 些 词组 合 或 序列 从 未 出 现 过 。 

这 个 朴素 二 义 树 方法 适用 于 三 维 、 四 维 、 一 直到 八 维 向 量 甚至 更 多 维 。 但 它 很 快 就 变 得 不 守 
规矩 、 效 率 低下 。 想 象 一 下 边界 “立方 体 ”在 10 维 空间 中 会 是 什么 样子 。 如 果 你 的 大 脑 不 能 处 
理 这 个 概念 的 话 也 没关系 ,因为 别人 也 一 样 。 人 类 的 大 脑 生 活 在 三 维 世 界 中 , 所 以 连 四 维 向 量 空 
间 的 概念 也 不 能 完全 掌握 。 

机 器 可 以 处 理 10 维 空间 ,但 是 如 果 想 把 人 类 思维 的 复杂 度 压缩 到 向 量 中 ， 则 需要 它们 能 够 
处 理 100 维 甚至 更 多 维 。 我 们 可 以 用 几 种 不 同 的 方式 来 思考 这 个 维 数 灾难 。 

加 维度 的 组 合 随 着 维 数 的 增加 呈 指 数 级 增长 。 

国 在 高 维 空间 中 ， 所 有 的 向 量 都 彼此 远离 。 

加 高 维 向 量 空间 大 多 为 空间 量 一 一 随机 边界 框 几乎 总 是 空 的。 


































































































代码 清单 F-1 中 的 代码 可 以 帮助 读者 了 解 高 维 空间 的 这 些 属性 。 


代码 清单 F-1 探索 高 维 空 间 





>>> import pandas as pd 
>>> import numpy as np 
>>> from tdqm import tqdm 


>>> num vecs = 100000 
>>> num radii = 20 
>>> num dim list = [2, 4, 8, 18, 32, 64, 128] 
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>>> radii = np.array (list (range (1l, num radii + 1))) 
>>> radii = radii / len (radii) 





>>> counts = np.zeros((lenl(radii), len(num dims list))) 
>>> rand = np.random.rand 
>>> for j, num dims in enumerate (tqdm(num dim list)): 归 一 化 随机 行 向 量 为 
SS x = rand(num vecs, num dims) 单位 长 度 
denom = (1. / np.linalg.norm(x, axis=1)) 
x *= denom.reshape(-1, 1) .dot (np.ones((1, x.shape[1]))) 
for i, r in enumerate (radii): 
mask = (Sr < XK} & (x Xr} 
counts[i, j] = (mask.sum(axis=1) == mask.shape[1]).sum'() 


读者 可 以 在 本 书 源 代码 中 的 nlpia/book/examples/ch_app_h.py 中 探索 这 个 奇怪 的 高 维 空 
间 志 界 。 在 下 面 的 表格 中 可 以 看 到 很 多 奇怪 的 地 方 ， 它 显示 了 在 按 点 扩展 时 每 个 边界 框 中 点 的 密度 : 


>>> df = pd.DataFrame (counts, index=radii, columns=num dim list) / num vecs 
>>> df = df.round(2) 
>>> dfl[ldf == 0] = "" 
>>> df 
2 4 8 18 32 64 128 
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有 一 种 索引 算法 称 为 KD-Tree， 它 试图 尽 可 能 有 效 地 划分 高 维 空间 ， 以 最 小 化 空 的 边界 框 数 
量 。 但 即使 是 这 些 方法 ， 当 维 数 灾难 开始 起 作用 时 ,也 会 使 其 在 遇 到 数 十 维 或 数 百 维 时 前 溃 。 与 
二 维和 三 维 向 量 不 同 , 对 于 高 维 词 向 量 和 思考 向 量 , 不 可 能 真正 索引 或 哈 希 并 快速 检索 到 最 接近 
的 匹配 ， 而 是 需要 多 次 计算 到 最 近邻 的 距离 ， 直 到 找到 一 些 很 接近 的 。 或者， 如 果 想 要 确保 没有 
漏 掉 ， 则 必须 计算 所 有 的 可 能 选项 。 


F2 高 维 索 引 
在 高 维 空间 中 , 依赖 边界 框 的 常规 索引 会 失效 。 最 终 , 即使 是 局 部 敏感 哈 希 也 会 失效 。 但 是 ， 


i er 


2 
29 
38 


i 
记 


"A 
i 

















上 上 上 

























































































异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 








F.2 ”高 维 索引 419 


我 们 先 用 局 部 敏感 哈 希 来 试验 一 下 它 的 限制 。 然 后 , 大 家 将 学 习 如 何 通过 放弃 完美 索引 的 想法 来 
避 开 这 些 限 制 。 在 使 用 局 部 敏感 哈 希 进行 试验 之 后 ， 大 家 将 创建 一 个 近似 索引 。 


F.2.1 局 部 敏感 哈 希 


在 图 F-1 中 ， 我 们 构建 了 400 000 个 完全 随机 的 向 量 ， 每 个 向 量 都 有 200 个 维度 ( 对 于 大 型 
语料库 ， 主 题 向 量 是 典型 的 )。 我 们 用 Python LSHash 包 (pip install lshash3 ) 对 它们 进 
行 了 索引 。 现 在 假设 有 一 个 搜索 引 敬 ， 它 想 要 找到 与 查询 主题 向 量 接近 的 所 有 主题 向 量 。 局 部 敏 
感 哈 希 需要 收集 多 少 个 向 量 ? 主题 向 量 的 维 数 达 到 多 少时 ， 我 们 的 搜索 结果 会 根本 没有 意义 呢 ? 









100th Cosine Top 10 Top 100 
D N Distance Top 1 Correct Top 2 Correct Correct Correct 
2 4254 
3 7727 
4 12198 
所 9920 
6 11310 
7 12002 
8 11859 
9 6958 
10 5196 
ka 3019 
12 12263 0.0606 FALSE 
13 1562 0.0871 FALSE FALSE 
14 733 0.1379 FALSE FALSE 
15 6350 0.1375 FALSE FALSE 
16 10980 0.0942 FALSE FALSE 











图 F-1 基于 LSHash 的 语义 搜索 
一 旦 维 数 明显 超过 10， 就 很 难得 到 许多 正确 的 搜索 结果 。 如 果 大 家 想 亲 自 尝 试 一 下 ,或 者 
想 尝 试 构建 一 个 更 好 的 LSH 算法 , nlpia 包 中 提供 了 运行 类 似 实验 的 代码 。Lshash3 包 是 开源 
的 ， 其 核心 只 有 大 约 100 行 代码 。 


F.2.2 ”近似 最 近邻 

近似 最 近邻 搜索 是 解决 高 维 向 量 空间 问题 的 最 新 方法 。 近 似 哈 希 类 似 于 局 部 敏感 哈 希 和 KD 
树 , 但 它们 依赖 更 像 是 随机 森林 算法 的 东西 。 它 们 是 将 向 量 空间 分 割 成 越 来 越 小 的 空间 块 的 随机 
方法 。 

目前 高 维 向 量 搜索 匹配 技术 的 最 先进 方法 是 Facebook 的 FAISS 包 和 Spotify 的 Annoy 包 。 
Annoy 包 的 安装 和 使 用 非常 简单 ， 所 以 我 们 在 聊天 机 器 人 中 选择 使 用 这 个 包 。 除 了 在 音乐 爱好 
者 歌曲 元 数据 的 向 量 表示 上 进行 搜索 匹配 ，Dark Horse Comics 还 用 Annoy 包 来 高 效 地 推荐 漫画 
书 。 我 们 在 第 13 章 中 提 到 了 这 些 工 具 。 
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E3 推 文 点 赞 预测 


图 F-2 是 一 个 推 文 集合 在 超 空 间 中 的 展示 。 这 是 将 这 些 推 文通 过 LSA 得 到 的 100 维 主题 向 
量 (点 ) 投影 到 二 维 平面 上 得 到 的 结果 。 大 多 数 标记 表示 至 少 被 “ 赞 ” 过 一 次 的 推 文 ， 小 部 分 
标记 是 针对 那些 没有 收 到 任何 “ 赞 ”的 推 文 。 













































































图 F-2 推 文 的 4 个 主题 的 散 点 矩阵 











用 LDA 模型 来 拟 合 这 些 主 题 向 量 有 80% 的 成 功率 。 然 而 ， 就 像 短 消息 数据 集 一 样 ， 这 个 推 
文 数据 集 也 非常 不 平衡 。 因 此 , 使 用 该 模型 去 预测 新 推 文 的 精确 率 可 能 不 会 太 高 。 对 于 下 面 这 些 
可 以 用 方差 最 大 化 (代表 类 的 可 分 性 很 强 ) 的 分 类 问题 ， 大 家 可 能 只 使 用 LSA、LDA 和 LDiA 
语言 模型 就 足够 了 : 

加 语义 搜索 ; 

加 情感 分 析 ; 

加 垃圾 邮件 检测 。 

而 对 于 需要 从 语义 内 容 相似 性 中 归纳 文本 之 间 微 妙 区 别 的 问题 , 则 需要 用 到 工具 箱 中 最 复杂 
的 NLP 工具 。 利 用 LSTM 深度 学 习 模型 和 t-SNE 降 维 技术 可 以 解决 下 面 这 类 难题 : 

国 人 类 反应 预测 ( 推 文 可 爱 度 ); 

加 机 融 翻 译 ; 

回 自然 语言 生成 。 
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在 写本 书 的 过 程 中 ,我 们 用 到 了 大 量 的 资源 。 下 面 是 我 们 的 一 些 最 爱 。 

在 理想 情况 下 , 大 家 可 以 在 一 些 语义 搜索 引擎 中 直接 输入 标题 文本 来 获取 这 些 资 源 , 常用 的 
语义 搜索 引擎 包括 DuckDuckGo 、Gigablast 和 Qwant。 不过， 在 Jimmy Wales 用 Wikia Search 或 
Google 分 享 他 们 的 NLP 技术 之 前 ， 我 们 还 是 需要 依赖 下 面 这 些 20 世纪 90 年 代 风 格 的 列表 。 如 
果 大 家 想 参与 开源 Web 索引 项 目 ， 请 查看 “搜索 引擎 ”一 他。 











应 用 及 项 目 
下 面 是 一 些 可 以 启发 大 家 开发 自己 的 NLP 项 目的 应 用 程序 。 








从 社交 网 络 档 案 中 猜测 密码 。 
聊天 机 器 人 律师 在 伦敦 和 纽约 撤销 了 16 万 张 停 车 罚单 ( Chatbot lawyer overturns 160 000 
parking tickets in London and New York )。 














GitHub 一 一 craigboman/gutenberg: 面向 NLP 和 机 器 学 习 的 gutenberg 项 目 数据 图 书 管 
理 员 。 











基于 手写 文字 词汇 和 句法 变化 对 痴呆 的 深度 检测 ( Longitudial Detection of Dementia 
Through Lexical and Syntactic Changes in Writing ) 一 一 Xuan Le 的 硕士 论文 《心理 诊断 与 
NLP 》, 

时 间 序 列 匹配 方法 (Time Series Matching: a Multi-filter Approach )， 王 志 华 提出 的 一 种 多 
过 滤器 方法 一 一 通过 类 似 于 莱 文 斯 坦 距离 的 动态 规划 算法 ， 对 歌曲 、 音 频 剪 辑 和 其 他 时 
间 序 列 进 行 离散 化 和 搜索 。 

NELL (Never Ending Language Learning， 永 恒 语言 学 习 ) 一 一 CMU 提出 的 通过 自然 语 
言 文本 来 不 断 学 习 发 展 的 知识 库 。 
美国 国家 安全 局 是 如 何 识 别 中 本 聪 的 ? (How the NSA identified Satoshi Nakamoto? ) 一 一 
《 连 线 》 杂 志和 美国 国家 安全 局 使 用 NLP 确定 了 中 本 聪 的 身份 。 
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资源 


文体 分 析 ( Stylometry ) 和 社交 媒体 的 作者 身份 分 析 ( Authorship Attribution for Social Media 
Forensics ) 一 一 风格 /模式 匹配 和 自然 语言 文本 (也 包括 音乐 和 艺术 品 ) 的 聚 类 ， 用 于 作 
者 身份 和 归属 分 析 。 

Your Dictionary 这 样 的 在 线 字典 可 以 使 用 POS 标注 来 做 句子 语法 校正 ，POS 标注 可 以 用 
来 训练 定制 的 Parsey McParseface 句法 树 和 POS 标签 需 。 

纽约 数据 科学 学 院 的 Julia Goldstein 和 Mike Ghoul 用 NLP 技术 来 识别 “ 假 新 闻 ”。 
Andreas Vlachos 的 simpleNumericalFactChecker 和 信息 提取 ( 见 第 11 章 ) 可 用 于 对 出 版 
商 、 作 者 和 记者 的 真实 性 进行 排名 。 可 以 与 Julia Goldstein 的 “ 假 新 闻 ” 预 测 器 相 结 合 。 
artificial-adversary 包 ， 用 于 生成 模糊 自然 语言 文本 (可 以 将 “you are great” 转 为 “ur gr8”)， 
作者 Jack Dai， 他 是 Airbnb 的 一 名 实习 生 。 可 以 训练 一 个 机 器 学 习 分 类 器 来 检测 英语 并 
将 其 翻译 成 模糊 的 英语 或 L33T。 还 可 以 训练 一 个 词 干 分 析 絮 (生成 具有 字符 特性 模糊 词 
的 自动 编码 器 ) 来 解码 模糊 处 理 后 的 词 , 使 NLP 流水 线 可 以 处 理 模糊 的 文本 而 无 须 重新 
训练 。 感 谢 Aleck。 












































课程 与 教程 


下 面 列 出 一 些 来 自 著名 大 学 项 目的 优秀 教程 、 演 示 和 课件 ， 其 中 许多 都 配备 了 Python 示例 。 

















《语音 与 语言 处 理 》, 作者 David Jurafsky 和 James H. Martin: 如 果 大 家 对 NLP 是 认真 的 ， 
就 应 该 读 一 读 这 本 书 。Jurafsky 和 Martin 对 NLP 概念 的 解释 更 为 透彻 ， 也 更 有 说 服 力 。 
本 书 中 忽略 的 很 多 概念 在 他 们 的 书 中 都 有 整 章 的 介绍 ， 如 有 限 状 态 机 (FST )、 隐 马尔 可 
夫 模 型 ( HMM )、 词 性 (POS ) 标注 、 句 法 分 析 、 语 句 连贯 性 分 析 、 机 顺 翻 译 、 摘 要 生 
成 和 对 话 系统 等 。 

麻 省 理工 学 院 通用 人 工 智 能 课程 由 Lex Fridman 开设 于 2018 年 2 月 一 一 麻 省 理工 学 院 的 
免费 互动 (公开 竞争 ! ) AGI 课程 。 这 可 能 是 人 工 智能 工程 最 透彻 、 最 严格 的 免费 课程 。 
Textacy: NLP before and afier spaCy 一 一 SpaCy 的 主题 建 模 包装 器 。 
麻 省 理工 学 院 2003 年 春季 课程 : 自然 语言 与 计算 机 知识 表示 课程 。 
《奇异 值 分 解 》( Singular value decomposition ) ( SVD )， 作 者 Kardi Teknomo 博士 。 
《信息 检索 导论 》 作者 Christopher D. Manning 、Prabhakar Raghavan 和 Hinrich Schiitze。 






































工具 和 包 








本 书 中 用 到 的 NLP 数据 集 、 工 具 和 示例 脚本 。 

OpenFST, 作者 Tom Bagby、Dan Bikel、Kyle Gorman 和 Mehryar Mohri 等 一 一 有 限 状态 
转换 机 的 开源 C++ 实 现 。 
Pyfst， 作 者 Victor Chahuneau 


nlpia 





OpenFST 的 Python 接口 。 
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斯坦 福 大 学 的 CoreNLP 一 一 最 先进 的 句子 切 分 、 日 期 提取 、 词 性 标注 、 语 法 检查 等 的 Java 
包 ， 作 者 Christopher D. Manning 等 。 
stanford-coren1lp3 .8 .0 一 一 斯 坦 福 大 学 的 CoreNLP 的 Python 接口 。 

用 于 构建 TensorFlow 和 Theano 计算 图 (神经 网 络 ) 的 高 级 API。 























keras 


研究 论文 及 讲座 


要 想 对 一 个 话题 有 深刻 的 理解 , 最 好 的 方法 之 一 就 是 重复 研究 人 员 的 实验 , 然后 以 某 种 方式 
修改 它们 。 这 就 是 最 好 的 教授 和 导师 “教导 ”学 生 的 方式 ， 他 们 会 鼓励 学 生 尝试 复 现 他 们 感 兴 
的 其 他 研究 人 员 的 成 果 。 如 果 大 家 花 了 足够 的 时 间 来 使 用 这 些 项 目 ， 就 会 忍 不 住 想 要 去 调整 它 。 


























向 量 空间 模型 及 语义 搜索 





Semantic Vector Encoding and Similarity Search Using Fulltext Search Engines 
等 人 使 用 传统 的 倒 排 索引 实现 对 所 有 维基 百科 的 高 效 语义 搜索 。 

Learning Low-Dimensional Metrics Lalit Jain 等 人 将 人 类 的 判断 融入 成 对 的 距离 度量 
中 ， 可 以 更 好 地 进行 决策 ， 以 及 对 词 向 量 和 主题 向 量 进行 无 监督 聚 类 。 例 如 ， 招 聘 人 员 
可 以 用 它 来 引导 一 个 基于 内 容 的 推荐 引擎 ， 将 简历 与 职位 描述 匹配 起 来 。 

RAND-WALK: A latent variable model approach to word embeddings ， 作 者 Sanjeev Arora、 
Yuanzhi Li、Yingyu Liang、Tengyu Ma 和 Andrej Risteski 解释 如 何 用 Word2vec 和 其 
他 词 向 量 空间 模型 进行 “面向 向 量 的 推理 ”的 最 新 理解 (2016 年 )， 特 别 是 类 比 问题 。 
Efficient Estimation of Word Representations in Vector Space， 作者 是 谷歌 公司 的 Tomas 
Mikolov、Greg Corrado 、Kai Chen 和 Jeffrey Dean，2013 年 9 月 一 一 首次 发 表 Word2vec 
模型 ， 包 括 一 个 基于 C++ 实现 的 使 用 谷歌 新 闻 语 料 库 进 行 预 训练 的 模型 。 

Distributed Representations of Words and Phrases and their Compositionality， 作 者 谷歌 公司 
的 Tomas Mikolov、Ilya Sutskever、 Kai Chen、Greg Corrado 和 Jeffrey Dean 一 一 对 Word2vec 
模型 进行 了 改进 ， 包 括 子 抽样 和 负 抽 样 ， 从 而 提高 了 其 精确 性 。 

From Distributional to Semantic Similariyy，James Richard Curran 写 的 2003 年 的 博士 论文 一 一 
大 量 经 典 的 信息 检索 ( 全 文 检索 ) 人 研究， 包括 TF-IDF 归 一 化 和 Web 搜索 的 页 面 排名 技术 。 


Jan Rygl 



















































































Predicting Stock Returns by Automatically Analyzing Company News Announcements 
Bella Dubrov 使 用 gensim 的 Doc2vec 实现 基于 公司 公告 来 预测 股价 , 并 对 Worgd2vec 和 
Doc2vec 进行 了 出 色 的 解释 。 
Building a Quantitative Trading Strategy to Beat the S&P 500 一 一 在 2016 年 PyCon 大 会 上 ， 
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Karen Rubin 阐述 了 她 是 如 何 发 现 女 性 首席 执行 官 在 预测 股价 上 涨 中 的 作用 , 尽管 并 不 像 
她 最 初 设想 的 那么 强 相关 。 





问答 系统 


国 Keras-based LSTM/CNN models for Visual Question Answering， 作 者 Avi Singh。 

国 Open Domain Question Answering: Techniques, Resources and Systems， 作 者 Bernardo 
Magnini。 

国 ”Question Answering Techniques for the World Wide Web， 作 者 林 凯 兹 ， 加 拿 大 滑铁卢 大 学 。 

国 NLP-Question-Answer-System 使 用 corenlp 和 nltk 从 零 开 始 完 成 句子 切 分 和 词性 











标注 。 
国 PiOA4Sso: Pisa Ouestion Answering System， 作 者 Attardi 等 ， 使 用 了 传统 的 信息 检索 (IR ) 
NLP。 
深度 学 习 
国 ”Understanding LSTM Networks， 作 者 Christopher Olah 一 一 对 LSTM 进行 了 清晰 而 正确 的 
解释 。 





国 Learnine Phrase Representations using RNN Encoder-Decoder for Statistical Machine 
Translation ,作者 Kyunghyun Cho 等 在 2014 年 发 表 的 论文 一 一 首次 引入 了 门 控 循 环 单元 ， 
使 LSTM 对 NLP 的 效率 更 高 。 


LSTM 与 RNN 


我 们 很 难 理解 LSTM 的 术语 和 架构 。 这 里 有 一 个 引用 得 最 多 的 参考 文献 的 集合 , 因此 大 家 可 
以 让 作者 “投票 ”LSTM 的 正确 讨论 方式 。 关于 LSTM 的 维基 百科 页 面 的 状态 很 好 地 说 明了 目前 
对 于 LSTM 的 含义 缺乏 共识 。 

国 Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine 

Translation， 作 者 Cho 等 一 一 解释 了 如 何 用 LSTM 记忆 元 胞 层 的 内 容 作为 芥 入 ， 对 变 长 
序列 进行 编码 ， 然 后 再 解码 为 一 个 新 的 变 长 序列 ， 实 现 一 个 序列 到 另 一 个 序列 的 翻译 或 
编码 转换 。 

加 Reinforcement Learning with Long Short-Term Memory， 作 者 Bram Bakker 一 一 将 LSTM 应 

用 于 规划 和 预期 认 知 , 并 演示 了 一 个 可 以 解决 T 型 迷宫 导航 问题 和 高 级 杆 平衡 (倒立 摆 ) 
问题 的 网 络 。 

国 Supervised Sequence Labelling with Recurrent Neural Networks——Alex Graves 与 导师 B. 

Brugge 的 论文 , 针对 1997 年 Hochreiter 和 Schmidhuber 首次 提出 的 LSTM 精确 梯度 的 详 
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细 数 学 解释 。 但 是 Graves 没有 严格 定义 像 CEC 或 LSTM 记忆 块 /元 胞 这 样 的 术语 。 
Theano LSTM 文档 , 作者 Pierre Luc Carrier 和 Kyunghyun Cho 一 一 对 LSTM 在 Theano 和 
Keras 中 的 实现 进行 了 图 解 和 说 明 。 

Learning to Forget: Continual Prediction with LSTM, 作 者 Felix A. Gers Jurgen Schmidhuber 
和 Fred Cummins 一 一 使 用 非 标 准 符号 表示 输入 层 (y") 和 输出 层 (3 中) 以 及 内 部 隐藏 状 
态 (hh )。 所 有 的 数学 和 图 表 都 是 “向 量化 的 ”。 

Sequence to Sequence Learning with Neural Networks， 作 者 是 谷歌 公司 的 Ilya Sutskever、 
Oriol Vinyals 和 Quoc V. Le。 

Understanding LSTM Networks，Charles Olah 在 2015 年 的 博客 一 一 包含 许多 高 质量 图 表 
和 来 自 读者 的 讨论 /反馈 。 

Long Short-Term Memory, 由 Sepp Hochreiter 和 Jurgen Schmidhuber 在 1997 年 发 表 一 一 关 
于 LSTM 的 原始 论文 ， 术语 陈 旧 ， 实 现 效 率 低下 ,但 数学 推导 详细 。 























竞赛 与 奖励 


Large Text Compression BencjzaaK， 一 些 研 究 人 员 认 为 ,自然 语言 文本 的 压缩 等 效 于 通用 
人 工 智能 4(AGI )。 

Hutter Prize， 压 缩 100 MB 维基 百科 自然 语言 文本 的 年 度 竞赛 。Alexander Rhatushnyak 
在 2017 年 获奖 。 

Open Knowledge Extraction Challenge 2077。 





数据 集 
自然 语言 数据 随处 可 见 。 语 言 是 人 类 的 超 能 力 ， 大 家 在 工作 流 中 应 该 尽量 利用 数据 优势 : 




















谷歌 公司 的 Dataset Search 一 一 用 于 数据 检索 的 搜索 引擎 ， 类 似 于 谷歌 学 术 搜 索 。 

斯 坦 福 数据 集 ( Stanford Datasets ) 一 一 包含 预 训练 的 word2vec 和 GloVE 模型 、 多 语言 
模型 和 数据 集 、 多 语言 字典 、 辞 典 及 语料库 。 

预 训练 词 向 量 模型 ( Pretrained word vector models ) 词 问 量 Web API 的 README 说 
明 ， 提 供 了 一 些 词 向 量 模型 的 链接 ， 包 括 300 维 维基 百科 GloVE 模型 。 

NLP 任务 的 数据 集 / 语 料 库 列 表 ， 按 倒序 时 间 排 列 ， 由 Karthik Narasimhan 编写 。 

NLP 领域 中 使 用 的 免费 /公开 数据 集 (文本 数据 ) 的 列表 ， 按 字母 顺序 排列 。 

基本 自然 语言 处 理 的 数据 集 和 工具 一 一 谷歌 公司 的 国际 化 工具 。 

nlpia 一 一 用 于 所 有 NLP 数据 加 载 器 ( nlpia .1loaders ) 和 预 处 理 咒 的 Python 包 , 在 
本 书 中 会 一 直 用 到 这 个 工具 包 。 
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搜索 引擎 


搜索 (信息 检索 ) 是 自然 语言 处 理 的 重要 组 成 部 分 。 我 们 要 学 会 正确 地 使 用 搜索 引擎 ,这样 
人 工 智能 (和 企业 ) 霸主 就 不 能 通过 他 们 灌输 给 我 们 大 脑 的 信息 来 操纵 我 们 ， 这 一 点 非常 重要 。 
如 果 大 家 想 通过 搭建 自己 的 搜索 引擎 来 学 习 如 何 检索 信息 ， 以 下 是 一 些 有 用 的 资源 。 


搜索 算法 


图 ”Billion-scale similarity search with GPUS 一 BidMACH 是 一 种 对 高 维 向 量 进行 索引 和 KNN 
搜索 的 算法 实现 ， 类 似 于 Python 包 annoy。 本 文 介 绍 了 一 种 GPU 增强 方法 ， 比 原来 的 
实现 快 8 倍 。 

国 Spotify 的 Annoy 软件 包 , 作者 Erik Bernhardsson 一 一 这 是 一 种 KNN 算法 , 用 于 在 Spotify 
上 查找 相似 的 歌曲 。 

国 New benchmarks for approximate nearest neighbors， 作 者 Erik Bernhardsson 一 一 近似 最 近邻 
算法 是 大 规模 语义 搜索 的 关键 ， 作 者 Erik 密切 关注 最 新 的 技术 状态 。 








































































































开源 搜索 引擎 


国 “BeeSeek 一 一 开源 分 布 式 Web 索引 和 私有 搜索 (hive 搜索 )， 已 经 不 再 维护 。 
四 ”WebSPHNIX 一 一 用 于 构建 网 络 疏 虫 程序 的 Web GUI。 


开源 全 文 索引 器 


有 效 的 索引 对 于 任何 自然 语言 搜索 应 用 程序 都 是 至 关 重 要 的 。 下 面 是 一 些 开 源 全 文 索引 项 
目 。 不 过 ， 这 些 “ 搜 索引 擎 ”不 会 抓 取 Web ， 所 以 大 家 需要 提供 用 于 索引 和 搜索 的 语料库 : 
开源 、 分 布 式 、REST 风格 的 搜索 引擎 。 
国 Apache Lucern + Solr。 
国 ”Sphinx Search。 
图 ”Kronuz/Xapiand, 一 个 REST 风格 的 搜索 引擎 一 一 提供 在 Ubuntu 中 搜索 本 地 硬盘 的 包 ( 就 
像 以 前 的 谷歌 桌面 一 样 )。 
Indri 一 一 带 Python 接口 的 语义 搜索 ， 但 维护 不 够 积极 。 























国 Elasticsearch 

















Gigablast 一 一 基于 C+ 的 开源 网 络 息 虫 程序 和 自然 语言 索引 器 。 
Zettair 开源 HTML 和 TREC 索引 器 (没有 把 虫 程序 或 实际 例子 ) 上 次 更 新 是 在 2009 年 。 











OpenFTS , 全 文 搜索 引擎 一 一 使 用 PostgreSQL 为 PyFTS 提供 全 文 搜 索索 引 , 带 Python API。 


搜索 引擎 的 操控 性 
大 多 数 人 使 用 的 搜索 引擎 并 不 是 为 了 帮助 大 家 找到 需要 的 东西 而 优化 的 , 而 是 为 了 确保 大 家 点 























异步 社区 好 好 好 你 最 棒 (13574065152) 专 享 请 尊重 版 权 





搜索 引擎 427 





击 的 链接 能 为 构建 它 的 公司 带 来 收入 。 谷 歌 提出 的 创新 式 第 二 价格 密封 竞价 拍卖 确保 了 广告 商 不 
会 支付 过 高 的 广告 费用 ， 但 它 并 不 能 阻止 搜索 用 户 在 点 击 伪装 广告 时 支付 过 高 的 费用 。 这 种 搜 
索 操 控 并 不 是 Google 独 有 的 。 在 任何 按照 “目标 函数 ”进行 排序 ， 而 不 是 按照 用 户 对 搜索 结 
的 满意 度 进 行 排序 的 搜索 引擎 中 ， 都 存在 这 种 操控 。 大 家 可 以 对 它们 进行 比较 和 实验 : 

图 (Google; 

国 Bing; 

国 Baidu。 
































具有 更 少 操控 性 的 搜索 引擎 


为 了 检验 一 个 搜索 引擎 商业 化 和 具有 操控 性 的 程度 ,我 用 “开源 搜索 引擎 ”之 类 的 条 目 查询 
了 许多 搜索 引擎 ,然后 统计 排名 前 十 的 搜索 结果 中 广告 词 购买 者 和 点 击 诱饵 网 站 的 数量 。 以 下 网 
站 将 这 一 数字 保持 在 一 两 个 以 下 , 而 且 提 供 的 排名 靠 前 的 搜索 结果 中 基本 上 是 最 客观 和 最 有 用 的 
网 站 ， 如 维基 百科 、Stack Exchange 或 著名 的 新 闻 报 道 和 博客 。 
国 Google 的 替代 品 。” 
四 Yandex 一 一 令 人 惊讶 的 是 ， 最 流行 的 俄罗斯 搜索 引擎 〈 占 俄罗斯 搜索 的 60% ) 似乎 没有 
排名 靠 前 的 美国 搜索 引擎 那么 具有 操控 性 。 
国 DuckDuckGo。 
图 watson 语义 Web 搜索 , 它 不 再 处 于 开发 阶段 ,也 不 是 真正 的 全 文 Web 搜索 , 但 它 是 探 
索 语义 Web 的 一 种 有 趣 方式 ( 至少 在 watson 被 冻结 之 前 是 这 样 )。 







































































分 布 式 搜索 引擎 


分 布 式 搜索 引擎 可 能 是 最 不 具有 操控 性 和 最 “客观 ”的 ， 因 为 它们 没有 中 心服 务 器 来 影响 
搜索 结果 的 排名 。 然 而 ， 由 于 语义 搜索 NLP 算法 难以 扩展 和 分 布 式 部 署 ， 目 前 的 分 布 式 搜索 实 
现 依赖 TF-IDF 词 频 对 页 面 进行 排序 。 不 过 ， 语 义 索引 方法 如 潜在 语义 分 析 (LSA ) 和 局 部 敏感 
哈 希 已 经 成 功 地 以 近乎 线性 伸缩 的 方式 进行 分 布 式 部 署 。 也 许 很 快 就 会 有 人 在 Yacy 这 种 开源 项 
目 中 贡献 语义 搜索 代码 ， 或 建立 一 个 新 的 支持 LSA 的 分 布 式 搜索 引擎 ， 这 只 是 时 间 问 题 。 

国 Nutch 一 一 Nutch 催生 了 Hadoop, 随 着 时 间 的 推移 , 它 本 身 变 得 不 那么 像 一 个 分 布 式 搜索 

引擎 ， 而 更 像 一 个 分 布 式 HPC 系统 。 

加 Yacy 一 一 少数 几 个 仍 在 使 用 的 开源 的 去 中 心 化 的 搜索 引擎 和 网 络 候 虫 程序 之 一 ， 提 供 了 

预 配置 的 Mac、Linux 和 Windows 客户 端 。 












































奈 尔 大 学 网 络 课程 案例 研究 , “Google AdWords Auction - A Second Price Sealed-Bid Auction”。 
见 标题 为 “Try These 15 Search Engines Instead of Google For Better Search Results” 的 网 页 。 
见 标题 为 “Distributed search engine” 和 “Distributed Search Engines” 的 网 页 。 
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UDO 





这 里 收集 了 一 些 常见 的 自然 语言 处 理 、 机 器 语言 缩 略 词 和 术语 的 定义 。 

读者 可 以 在 https://github.com/totalgood/nlpia 的 nlpia Python 包 中 找到 一 些 我 们 用 来 辅助 生 
成 这 个 词汇 表 的 解析 器 和 正则 表达 式 "。 下 列 代码 展示 了 我 们 如 何 使 用 nlpia 生成 这 个 词汇 表 
的 初步 版 本 : 

>>> from nlpia.book parser import write glossary 


>>> from nlpia.constants import DATA PATH 
>>> print (write glossaryl( 


os.path.join (DATA PATH, 'book'))) 于 不 可 能 在 你 的 数据 目录 









































I 下 提供 所 有 的 原稿 ， 你 得 到 
的 结果 可 能 和 这 里 有 所 不 同 























[acronyms, template="glossary",id="terms"] 

*AGI*:: Artificial general intelligence -- 

*AI*:: Artificial intelligence -- 

*AIML*:: Artificial Intelligence Markup Language -- 
*ANN*:: Approximate nearest neighbors -- 

















我 们 没有 完成 上 述 词汇 定义 的 生成 器 ， 但 是 使 用 良好 的 LSTM 语言 模型 也 许 能 做 到 这 一 点 
( 见 第 10 章 )。 我 们 把 这 个 任务 留 给 读者 自己 来 完成 。 

















缩 略 词 


AGI (artificial general intelligence， 通 用 人 工 智 能 ) 机 器 智能 能 够 解决 人 类 大 脑 可 以 解决 
的 各 种 问题 。 

AI (artificial intelligence， 人 工 智能 ) 机 器 的 行为 令 人 印象 深刻 到 可 以 被 科学 家 或 公司 营 
销 人 员 称 为 智能 。 

AIML ( Artificial Intelligence Markup Language， 人 工 智能 标记 语言 ) 在 A.L.I.C.E. (第 一 





个 nlpia.translators (src/nlpia/translators.py ) 和 nlpia.book parser (src/nlpia/book parser.py )。 
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个 对 话 聊 天 机 器 人 之 一 ) 开发 期 间 发 明基 于 XML 的 模式 匹配 和 模板 化 响应 规范 语言 。 

ANN (approximate nearest neighbors， 近 似 最 近邻 ) 在 个 高 维 向 量 集合 中 找到 M 个 最 
接近 目标 向 量 的 向 量 是 一 个 复杂 度 为 O(V) 问 题 ， 因 为 必须 计算 每 个 向 量 和 目标 向 量 之 间 的 距离 
度量 。 这 使 得 聚 类 具有 难 解 的 OOV) 复 杂 度 。 

ANN (artificial neural network， 人 工 神经 网 络 )。 

API(application programmer interface, 应 用 程序 编程 接口 ) 客户 是 开发 人 员 的 用 户 接口 ， 
通常 是 命令 行 工 具 、 源 代码 库 或 Web 接口 ， 开 发 人 员 可 以 通过 编程 的 方式 与 之 进行 交互 。 

AWS (Amazon Web Services，Amazon Web 服务 ) 亚马逊 在 向 世界 开放 其 内 部 基础 设施 时 
提出 了 云 服 务 的 概念 。 

BOW (bag of words， 词 袋 ) 一 种 数据 结构 (通常 是 一 个 向 量 )， 它 保留 词 的 计数 (频率 ) 
但 不 保留 其 顺序 。 

CEC ( constant error carousel， 常 量 错误 轮 播 ) 输出 延迟 一 步 的 神经 元 。 在 LSTM 或 GRU 
内 存单 元 中 使 用 。 这 是 LSTM 单元 的 存储 器 寄存 器 ， 只 能 通过 遗忘 门 中 断 此 “ 轮 揪 ” 来 重 置 为 新 值 。 

CNN (convolutional neural network， 卷 积 神经 网 络 ) 一 种 神经 网 络 ， 经 过 训练 可 以 学 习 
过 滤器 (也 称 为 卷 积 核 或 滤波 器 )， 用 于 监督 学 习 中 的 特征 提取 。 

CUDA (Compute Unified Device Architecture， 计 算 统一 设备 架构 ) 一 个 Nvidia 开源 软件 
库 ， 针 对 在 GPU 上 运行 通用 计算 /算法 进行 了 优化 。 

DAG (directed acyclic graph， 有 向 无 环 图 ) 没有 任何 环 和 循环 连接 的 网 络 拓扑 。 

DFA (deterministic finite automation ， 确 定性 有 限 自动 机 ) 一 个 不 做 随机 选择 的 有 限 状态 
机 。Python 中 的 re 包 编 译 正则 表达 式 以 生成 DEFA， 但 regex 包 可 以 将 模糊 正则 表达 式 编译 为 
NDFA ( 非 确定 性 有 限 自动 机 )。 

FSM (finite state machine， 有 限 状 态 机 ) 凯 尔 ' 戈 尔 曼 ( Kyle Gorman ) 和 维基 百科 比 我 
们 这 里 解释 得 更 好 。 

FST (finite state transducer， 有 限 状态 转换 机 ) 类 似 于 正则 表达 式 ， 但 它们 可 以 输出 一 个 
新 字符 来 替换 它们 匹配 的 每 个 字符 。 凯 尔 ， 苞 尔 曼 解释 得 很 好 。 

GIS (geographic information system， 地 理 信息 系统 ) 用 于 存储 、 控 制 和 显示 地 理 信息 的 
数据 库 ， 通 常 涉及 纬度 、 经 度 、 高 度 坐标 和 轨迹 。 

GPU (graphical processing unit， 图 形 处 理 单元 ) 游戏 装备 、 加 密 货币 挖掘 服务 器 或 机 器 
学 习 服 务 需 中 的 图 形 卡 。 

GRU (gated recurrent unit， 门 控 循 环 单元 ) 长 短期 记忆 网 络 的 变 体 ， 它 共享 参数 以 减少 
计算 时 间 。 

HNSW ( Hierarchical Navigable Small World ) 一 种 实现 高 效 搜索 的 图 形 数据 结构 ( 可 以 
使 用 YuA. Malkov 和 DA Yashunin 的 Hierarchical Navigable Small World 图 表 实 现 健壮 的 近似 最 
近邻 搜索 )。 

HPC (high performance computing， 高 性 能 计算 ) 通过 将 map 与 reduce 计算 阶段 分 离 
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实现 并 行 化 来 最 大 化 吞吐 量 的 系统 研究 。 

IDE (integrated development environment， 集 成 开发 环境 ) 用 于 软件 开发 的 桌面 应 用 程序 ， 
例如 PyCharm 、Eclipse、Atom 或 Sublime Text 3 。 

IR (information retrieval， 信 息 检索 ) 针对 文档 和 Web 搜索 引擎 算法 的 研究 。 该 研究 使 
NLP 在 20 世纪 90 年 代 成 为 重要 计算 机 科学 学 科 的 前 沿 。 

ITU (India Technical University， 印 度 科技 大 学 ) 一 流 的 技术 大 学 。 印 度 的 伍 治 亚 理工 学 院 。 

这 Sn (internationalization， 国 际 化 ) 为 在 多 个 国家 ( 区 域 ) 使 用 应 用 程序 进行 准备 。 

LDA (linear discriminant analysis， 线 性 判别 分 析 ) 类 之 间 具 有 线性 边界 的 分 类 算法 ( 见 
第 4 章 )。 

LSA (latent semantic analysis ， 潜 在 语义 分 析 ) 应 用 于 TF-IDF 或 词 袋 向 量 的 截断 的 SVD， 
从 而 在 向 量 空间 语言 模型 中 创建 主题 向 量 ( 见 第 4 童 )。 

LSH (locality sensitive hash， 局 部 敏感 哈 希 ) 一 种 用 于 稠密 、 连 续 、 高 维 向 量 的 有 效 但 近 
似 的 映射 / 聚 类 索引 的 哈 希 〈 见 第 13 章 )。 可 以 将 它们 视 为 不 仅仅 适用 于 二 维 向 量 〈 经度 和 纬度 ) 
的 邮政 编码 。 

LSI (latent semantic indexing， 潜 在 语义 索引 ) 一 种 描述 潜在 语义 分 析 的 旧 方 式 ( 见 LSA )， 
但 这 是 一 个 误 称 ， 因 为 LSA 向 量 空间 模型 不 便于 索引 。 

LSTM (long short-term memory， 长 短期 记忆 ) 循环 神经 网 络 的 一 种 增强 形式 ,通过 反 癌 
传播 维持 训练 的 自身 状态 记忆 ( 见 第 9 章 )。 

MIH (multi-index hashing， 多 索引 哈 希 ) 一 种 用 于 高 维 稠密 向 量 的 哈 希 和 索引 方法 。 

ML (machine learning， 机 器 学 习 ) 使 用 数据 而 不 是 手工 编码 算法 对 机 器 进行 编程 。 

MSE (mean squared error， 均 方 误差 ) 机 器 学 习 模 型 的 期 望 输出 与 模型 的 实际 输出 之 间 
的 差 的 平方 和 。 

NELL (Never Ending Language Learning， 永 恒 语 言 学 习 ) Carnegie Mellon 的 知识 提取 
项 目 ， 连 续 运 行 多 年 ， 抓 取 网 页 并 提取 有 关 世 界 的 通用 知识 〈 主要 是 术语 之 间 的 “IS-A” 分 类 
关系 )。 

NLG (natural language generation ， 自 然 语言 生成 ) 基于 算法 自动 生成 文本 ， 是 自然 语言 
处 理 (NLP ) 最 具 挑 战 性 的 任务 之 一 。 

NLP (natural language processing， 自 然 语言 处 理 ) 到 现在 为 止 大 家 大 概 已 经 知道 这 是 什 
么 了 。 如 果 没 有 ， 请 参阅 第 1 章 中 的 介绍 。 

NLU (natural language understanding， 自 然 语 言 理解 ) 在 最 近 的 论文 中 经 常 指 使 用 神经 
网 络 进行 自然 语言 处 理 。 

NMF (nonnegative matrix factorization ， 非 负 和 矩阵 分 解 ) 与 SVD 类 似 的 矩阵 分 解 ， 但 约 
束 和 矩阵 因子 中 的 所 有 元 素 大 于 或 等 于 零 。 

NSF ( National Science Foundation， 美 国 国家 科学 基金 会 ) 负责 资助 科学 研究 的 美国 政府 
机 构 。 
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NYC (New York City， 纽 约 市 ) 美国 不 夜 城 。 

OSS (open source software， 开 源 软 件 )。 

pip (pip installs pip ，pip 安装 pip ) Python 官方 包 管 理 器 ， 上 自动 从 “Cheese Shop” 下 载 并 
安装 包 。 

PR ( Pull Request， 拉 取 请 求 ) 请 求 某 人 将 你 的 代码 合并 到 他 们 的 代码 中 的 正确 做 法 。 
GitHub 有 一 些 按钮 和 向 导 可 以 让 该 操作 很 容易 实现 。 这 是 大 家 建立 自己 作为 开源 有 力 贡献 者 声 
誉 的 方法 。 

PCA (principal component analysis， 主 成 分 分 析 ) 在 任何 数值 型 数据 上 的 截断 的 SVD， 
通常 是 图 像 或 音频 文件 。 

QDA (quadratic discriminant analysis， 二 次 判别 分 析 ) 与 LDA 类 似 , 但 允许 类 之 间 的 二 
次 ( 曲线 ) 边界 。 

ReLU (rectified linear unit， 修 正 线性 单元 ) 线性 神经 网 络 激活 函数 ， 强 制 神经 元 的 输出 
非 零 。 相 当 于 y = np.max (x，0) 。 图 像 处 理 和 NLP 领域 最 流行 和 最 有 效 的 激活 函数 ， 因 为 
它 让 反 向 传播 在 极 深 的 神经 网 络 上 有 效 运 行 而 不 会 出 现 “ 梯 度 消失 ”。 

REPL ( read-evaluate-print loop， 读 取 - 求 值 -输出 循环 ) 任何 无 须 编译 的 脚本 语言 开发 人 
员 的 典型 工作 流程 。ipython、jupyter 控制 台 和 jupyter 记事 本 的 REPL 功能 特别 强大 ， 基 于 
其 help、?、?? 和 % 神 奇 命令 ， 以 及 自动 补 全 和 Ctrl-R 历史 搜索 。 

RMSE ( root mean square error， 均 方 根 误 差 ) 均 方 误差 的 平方 根 。 篆 见 的 回归 误差 指标 。 
它 也 可 以 用 于 二 值 和 序数 分 类 问题 。 它 提供 了 模型 预测 中 1-sigma 不 确定 性 的 直观 估计 。 

RNN ( recurrent neural network， 循 环 神经 网 络 ) 一 种 神经 网 络 架 构 ， 将 一 层 的 输出 输入 
到 下 一 层 。RNN 通常 被 “展开 ”到 等 效 的 前 馈 神经 网 络 中 进行 图 解 和 分 析 。 

SMO (sequential minimal optimization， 序 列 最 小 优化 算法 ) 一 种 支持 向 量 机 的 训练 方法 
和 算法 。 

SVD ( singular value decomposition ， 奇 异 值 分 解 ) 一 种 矩阵 分 解 ， 它 产生 特征 值 的 对 角 和 矩 
阵 和 两 个 包含 特征 向 量 的 正 交 和 矩阵。 这 是 LSA 和 PCA 背后 的 数学 知识 〈 见 第 4 章 )。 

SVM (Support vector machine， 支 持 向 量 机 ) 通常 用 于 分 类 的 一 种 机 需 学 习 算 法 。 

TF-IDF (term frequency x inverse document frequency， 词 项 频率 乘 以 逆 文 档 频率 ) 一 种 
词 频 归 一 化 的 方法 ， 可 以 改善 信息 检索 结果 ( 见 第 3 章 )。 

UI (user interface， 用 户 界面 ) 通过 软件 为 用 户 提供 的 “可 视 性 ” ,通常 是 图 形 化 网 页 或 移 
动 应 用 程序 屏幕 ， 用 户 必须 与 之 交互 才能 使 用 产品 或 服务 。 

UX (user experience， 用 户 体 验 ) 客户 与 产品 或 公司 互动 的 本 质 ， 从 购买 一 直到 他 们 与 我 
们 的 最 后 一 次 联系 。 这 包括 你 的 网 站 或 网 站 上 的 APIUI 以 及 与 你 公司 的 所 有 其 他 互动 。 

VSM (vector space model， 向 量 空间 模型 ) 问题 中 对 象 的 向 量 表 示 ， 例 如 NLP 问题 中 的 
词 或 文档 ( 见 第 4 章 和 第 6 章 )。 

YMMYV (Your mileage may vary， 因 人 而 异 ) 你 可 能 无 法 获得 与 我 们 相同 的 结 
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affordance (可 视 性 ) 一 种 有 意 设计 的 让 用 户 与 产品 进行 交互 的 方式 。 理 想 情 况 下 ， 这 种 交 
互 对 用 户 来 说 是 自然 的 、 易 于 发 现 的 和 自 描述 的 。 

artificial neural network ( 人 工 神经 网 络 ) 一 种 用 于 机 器 学 习 或 模拟 生物 神经 网 络 ( 脑 ) 的 
计算 图 。 

cell (元 胞 ) LSTM 单元 中 记录 一 个 标量 值 和 并 连续 输出 它 的 记忆 或 状态 的 部 分 。 

dark patterns ( 黑暗 模式 ) 一 种 为 了 提升 收益 的 软件 模式 (通常 用 于 用 户 界 面 )， 但 往往 由 
于 “后 坐 力 ” 而 失败 ， 因 为 它们 操纵 客户 以 他 们 不 希望 的 方式 使 用 产品 。 

feed-forward network ( 前 馈 网 络 ) 一 种 “ 单 向 ”神经 网 络 ， 它 将 所 有 输入 以 一 致 的 方向 传 
递 到 输出 ， 形 成 有 向 无 环 计 算 图 ( DAG ) 或 树 。 

morpheme (语素 ) 词 条 或 词 的 一 部 分 , 其 本 身 具有 意义 。 构 成 词 条 的 语素 统称 为 词 条 的 形 
态 。 使 用 像 SpaCy 这 样 的 包 中 的 算法 可 以 得 到 词 条 的 形态 , 该 算法 基于 其 上 下 文 (周围 的 词 ) 来 
处 理 词 条 。 

net、network 或 者 neural net( 网 络 或 神经 网 络 ) 人 工 神 经 网 络 。 

neuron( 神经 元 ) 神经 网 络 中 的 一 个 单元 ， 其 函数 (例如 y = tanh (w.dot (x) ) ) 接受 
多 个 输入 并 输出 单个 标量 值 。 该 值 通常 由 该 神经 元 的 权重 (w 或 w ) 乘 以 所 有 输入 信号 (x 或 x ) 
并 加 上 偏 置 权重 (w? )， 后 面 接 像 tanh 这 样 的 激活 函数 得 到 。 神 经 元 总 是 输出 标量 值 ， 该 标量 值 可 
以 作为 网 络 中 任何 其 他 隐藏 或 输出 神经 元 的 输入 。 如 果 神 经 元 实现 了 比 上 面 更 复杂 的 激活 函数 , 就 
像 对 创建 LSTM 的 循环 神经 元 所 做 的 增强 一 样 ， 它 一 般 就 会 被 称 为 单元 ， 例 如 LSTM 单元 。 

nessvector ( 属性 向 量 ) 一 个 非 正式 术语 ， 指 将 概念 或 特性 ( 如 女性 特征 或 蓝 色 特 征 ) 捕捉 
到 向 量 的 维度 中 的 主题 向 量 或 语义 向 量 。 

predicate (〈 谓语 ) 在 英语 语法 中 ， 谓 语 是 句子 中 与 主语 相关 的 主要 动词 。 每 个 完整 的 句子 
都 必须 有 一 个 谓语 ， 就 像 它 必须 有 一 个 主语 一 样 。 

skip-gram ” 词 条 跳 对 ， 用 作词 向 量 租 入 的 训练 样本 ,其 中 忽略 了 词 条 之 间 的 间隔 ( 见 第 
6 但 )。 

softmax ” 归 一 化 指数 函数 ， 用 于 将 一 个 神经 网 络 的 实数 向 量 输出 压缩 至 取 值 范 围 为 0 到 1 
的 概率 区 间 。 

subject ( 主语) 句子 的 主要 名 词 一 一 每 个 完整 的 句子 必须 有 一 个 主语 ( 和 谓语 )， 即 使 主语 
是 隐 含 的 ， 例 如 句子 “Run!”， 其 中 隐 含 的 主语 是 “你 ”。 

unit (单元) 神经 元 或 小 的 神经 元 集合 ， 执 行 一 些 更 复杂 的 非 线性 函数 来 计算 输出 。 例 如 ， 
LSTM 单元 具有 记录 状态 的 记忆 元 胞 ， 一 个 决定 要 记 住 什么 值 的 输入 门 ( 神经 元 )， 一 个 决定 记 
住 该 值 多 长 时 间 的 遗忘 门 ( 神经 元 )， 以 及 一 个 实现 该 单元 激活 函数 (通常 是 sigmoid 或 tanh() ) 
的 输出 门神 经 元 。 单 元 是 神经 网 络 中 神经 元 的 直接 替代 ,， 它 接受 向 量 输入 并 输出 标量 值 ， 只 是 它 
有 更 复杂 的 行为 。 
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